# Ejercicios Clase Tema 12

## BeautifulSoup

In [None]:
# Para instalar Beautiful Soup, ejecutamos el siguiente comando:
!pip install beautifulsoup4

# Para instalar el parser lxml y html5lib, ejecuta el siguiente comando:
!pip install lxml

!pip install html5lib

BeautifulSoup es un objeto, que representa al árbol de objetos Python resultante de parsear el documento HTML de entrada, este será nuestro punto de partida para navegar a través de los elementos del árbol, así como para realizar las búsquedas necesarias en el mismo.  Vamos  a ver los distintos objetos que podemos encontrar en un árbol de Beautiful Soup.

<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
    <div id="main" class="full-width">
        <h1>El título de la página</h1>
        <p>Este es el primer párrafo de nuestra página de prueba</p>
        ...
    </div>
</body>
</html>


In [14]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'html.parser') # 'html.parser' 'lxml' 'html5lib'
soup


<html lang="es">
<head>
<meta charset="utf-8"/>
<title>Página de prueba</title>
</head>
<body>
<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>
</body>
</html>

In [15]:
type(soup)

bs4.BeautifulSoup

In [16]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'html5lib') # 'lxml'
soup

<html lang="es"><head>
    <meta charset="utf-8"/>
    <title>Página de prueba</title>
</head>
<body>
<div class="full-width" id="main">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>


</body></html>

In [17]:
type(soup)

bs4.BeautifulSoup

Tag: Este objeto se corresponde con una etiqueta HTML o XML. Por ejemplo, dado el objeto soup, podemos acceder al objeto tag que representa al título de la página usando la etiqueta title:

In [18]:
soup.title # tag title

<title>Página de prueba</title>

In [19]:
soup.body # tag body

<body>
<div class="full-width" id="main">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>


</body>

In [20]:
soup.h1 # tag h1

<h1>El título de la página</h1>

In [21]:
soup.p # tag p

<p>Este es el primer párrafo de nuestra página de prueba</p>

In [22]:
soup.meta  # tag meta

<meta charset="utf-8"/>

In [23]:
soup.meta["charset"]

'UTF-8'

In [24]:
cuerpo = soup.body # tag body
cuerpo

<body>
<div class="full-width" id="main">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>


</body>

In [25]:
type(cuerpo)

bs4.element.Tag

In [26]:
cuerpo.name # nombre de la etiqueta

'body'

In [31]:
soup.div

'main'

In [28]:
div_main = soup.div # tag div
div_main

<div class="full-width" id="main">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>

In [29]:
div_main['id'] # atributo id

'main'

In [30]:
div_main['class'] # atributo class

['full-width']

Dado un objeto de tipo Tag, podemos acceder a sus atributos tratando al objeto como si fuera un diccionario. Además, se puede acceder a ese diccionario por medio del atributo attrs

In [32]:
div_main.attrs # muestra los atributos del tag div

{'id': 'main', 'class': ['full-width']}

In [33]:
soup.div.attrs

{'id': 'main', 'class': ['full-width']}

In [34]:
soup

<html lang="es"><head>
    <meta charset="utf-8"/>
    <title>Página de prueba</title>
</head>
<body>
<div class="full-width" id="main">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>


</body></html>

In [35]:
soup.meta

<meta charset="utf-8"/>

In [36]:
soup.meta.attrs

{'charset': 'UTF-8'}

### NavigableString

    NavigableString: Un objeto de este tipo representa la cadena de texto que hay contenida en una etiqueta.
    Se accede por medio de la propiedad string:

In [37]:
soup.p

<p>Este es el primer párrafo de nuestra página de prueba</p>

In [38]:
soup.p.string

'Este es el primer párrafo de nuestra página de prueba'

In [39]:
parrafo = soup.p
texto = parrafo.string
texto

'Este es el primer párrafo de nuestra página de prueba'

In [40]:
parrafo = soup.p
texto = parrafo.strings
for t in texto:
    print(t)

Este es el primer párrafo de nuestra página de prueba


In [41]:
type(texto)

generator

In [42]:
soup.h1

<h1>El título de la página</h1>

In [43]:
soup.h1.string

'El título de la página'

In [44]:
titulos = soup.h1
texto = titulos.string
texto

'El título de la página'

### Navegar a través de los elementos

    Lo importante en este punto es entender que un objeto de tipo Tag puede contener otros objetos de tipo Tag u 
    objetos de tipo NavegableString.

    Hemos visto que es posible acceder a los objetos del árbol utilizando los nombres de las etiquetas como atributos.
    Esta es la forma más simple de navegar a través del árbol. 


<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <h2>El subtítulo de la página</h2>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>

In [45]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'lxml') # 'html.parser'
soup

<html lang="es">
<head>
<meta charset="utf-8"/>
<title>Página de prueba</title>
</head>
<body>
<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>
</body>
</html>

In [46]:
soup.meta['charset'] # obtener el atributo 'charset' de la etiqueta meta

'UTF-8'

In [47]:
soup.div

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>

In [48]:
soup.div.div.div

<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>

In [49]:
soup.div.div

<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>

Hay otras formas de acceder a los hijos de un objeto, además de a través de las etiquetas:

      •	El atributo contents: Devuelve una lista con todos los hijos de primer nivel de un objeto.
      •	Usando el generador children: Devuelve un iterador para recorrer los hijos de primer nivel de un objeto.
      •	Por medio del generador descendants: Este atributo devuelve un iterador que permite recorrer todos los hijos de un objeto. No importa el nivel de anidamiento.


In [50]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando contents

inner_div = soup.div.div
hijos = inner_div.contents

In [51]:
hijos

['\n',
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>,
 '\n',
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>,
 '\n']

In [52]:
print(type(hijos)) # lista

<class 'list'>


In [55]:
for child in hijos:
    print(child)



<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>


<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>




In [56]:
for child in hijos:
    if child.name:  # Ignoramos los saltos de línea
        print(f'{child}')
        #print(f'{child.name}') # nombre de la etiqueta

<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>


In [57]:
hijos

['\n',
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>,
 '\n',
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>,
 '\n']

In [58]:
inner_div = soup.div.div
hijos = inner_div.contents

for child in hijos:
    if child.name:  # Ignoramos los saltos de línea
        print(f'{child}')
        #print(f'{child.name}')

<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>


In [60]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando children

inner_div = soup.div.div
hijos = inner_div.children  
print(type(hijos))

for child in hijos:
     if child.name:  # Ignoramos los saltos de línea
        print(f'{child.name}')
        print(f'{child}')

<class 'list_iterator'>
div
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
div
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>


In [61]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando descendants
inner_div = soup.div.div
hijos = inner_div.descendants  
print(type(hijos))
print("------------------")
for child in hijos:
     if child.name:  # Ignoramos los saltos de línea
        # print(f'{child.name}')
        print(f'{child}')

<class 'generator'>
------------------
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>


In [62]:
hijos = soup.descendants  
print(type(hijos))

for child in hijos:
     if child.name:  
        print(f'{child.name}')

<class 'generator'>
html
head
meta
title
body
div
h1
p
p
div
div
a
a
div
div
a
a
div
p
div
a


Además de a los hijos, es posible navegar hacia arriba en el árbol accediendo a los objetos padre de un elemento. Para ello, podemos usar las propiedades parent y parents:

    •	parent referencia al objeto padre de un elemento (Tag o NavigableString).
    •	parents es un generador que permite recorrer recursivamente todos los elementos padre de uno dado.


In [63]:
titulo = soup.title
titulo

<title>Página de prueba</title>

In [64]:
titulo.parent

<head>
<meta charset="utf-8"/>
<title>Página de prueba</title>
</head>

In [66]:
titulo.parent.meta

<meta charset="utf-8"/>

In [67]:
titulo.parent.title.string

'Página de prueba'

In [68]:
titulo.parent.meta

<meta charset="utf-8"/>

In [69]:
titulo.parent.meta["charset"]

'UTF-8'

In [70]:
for parent in titulo.parents:
    print(parent.name)

head
html
[document]


In [71]:
soup.p

<p>Este es el primer párrafo</p>

In [72]:
soup.p.parent

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>

In [73]:
for parent in soup.p.parents:
    print(parent.name)

div
body
html
[document]


In [74]:
soup.p.parent.div.a

<a href="https://pagina1.xyz/">Enlace 1</a>

In [75]:
soup.p.parent.div.a.string

'Enlace 1'

Buscar elementos en Beautiful Soup

    Las búsquedas y filtros, es quizás una de las partes más importantes de esta librería.  

    Beautiful Soup cuenta con diferentes métodos para buscar elementos en el árbol. Sin embargo, dos de los 
    principales son find_all() y find().

    Ambos métodos trabajan de forma similar. 
    
    Básicamente, buscan entre los descendientes de un objeto de tipo Tag y recuperan todos aquellos que cumplan
    una serie de filtros.


In [None]:
# Filtro por nombre de etiqueta

In [76]:
soup.find_all("a") 

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [77]:
soup("a")

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [78]:
# Filtro por nombre de etiqueta <a>

links = soup.find_all('a')
for link in links:
    print(link)

<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
<a href="https://pagina5.xyz/">Enlace 5</a>


In [79]:
type(links)

bs4.element.ResultSet

In [80]:
# Filtro por atributos

footer = soup.find_all(id='footer')
print(footer)

[<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>]


In [81]:
# Filtro por clases CSS
# buscar todos los bloques div que tengan la clase links

links_divs = soup.find_all('div', class_="links")
print(links_divs)

[<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>, <div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>, <div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>]


In [82]:
# Filtro por clases CSS
# para buscar una cadena exacta

footer_links = soup.find_all(class_="links")
print(footer_links)

[<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>, <div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>, <div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>]


In [83]:
# Filtro por clases CSS
# para buscar una cadena exacta

footer_links = soup.find_all(class_="links footer-links")
print(footer_links)

[<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>]


In [84]:
# Filtro por clases CSS
# las variaciones en este caso no funcionan

footer_links = soup.find_all(class_="footer") # "footer-links links"
print(footer_links)

[]


In [85]:
soup.title.find_all(string=True)

['Página de prueba']

In [86]:
soup.title(string=True)

['Página de prueba']

In [87]:
soup.p(string=True)

['Este es el primer párrafo']

In [88]:
soup.p.find_all(string=True)

['Este es el primer párrafo']

In [89]:
texto = soup.find_all(string=True)
for t in texto:
    if len(t.strip()) > 0:
        print(t.string)

Página de prueba
El título de la página
Este es el primer párrafo
Este es el segundo párrafo
Enlace 1
Enlace 2
Enlace 3
Enlace 4
 El footer 
Este párrafo está en el footer
Enlace 5


In [90]:
soup.find_all('a')

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [91]:
soup.find_all('a', limit=1)

[<a href="https://pagina1.xyz/">Enlace 1</a>]

In [92]:
soup.find_all('a', limit=3)

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>]

In [93]:
soup.find('a')  # solo trae el primero

<a href="https://pagina1.xyz/">Enlace 1</a>

In [94]:
soup.head.title

<title>Página de prueba</title>

In [95]:
soup.find("head").find("title")

<title>Página de prueba</title>

In [96]:
import re

tags = soup.find_all("img", {"src": re.compile(".*\.png")})
tags

[]

In [97]:
tags = soup.find_all("a", {"href": re.compile(".*\.xyz")})
tags

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [98]:
tags = soup.find_all(re.compile("^b"))
tags

[<body>
 <div class="full-width" id="main">
 <h1>El título de la página</h1>
 <p>Este es el primer párrafo</p>
 <p>Este es el segundo párrafo</p>
 <div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>
 </div>
 <div id="footer">
 <!-- El footer -->
 <p>Este párrafo está en el footer</p>
 <div class="links footer-links">
 <a href="https://pagina5.xyz/">Enlace 5</a>
 </div>
 </div>
 </div>
 </body>]

### CSS selector


BeautifulSoup tiene un método .select() que utiliza el paquete SoupSieve para ejecutar un selector CSS 
contra un documento analizado y devolver todos los elementos coincidentes. Tag tiene un método similar que ejecuta un selector CSS contra el contenido de una sola etiqueta.

La documentación de SoupSieve enumera todos los selectores CSS soportados actualmente, pero aquí mencionamremos algunos de los conceptos básicos:

    •	Para buscar por el atributo id se utiliza una almohadilla #ids
    •	Para buscar por el atributo class se utiliza un punto .classes
    •	Para buscar por atributo – valor  [atributes=values]. 
    •	Para buscar por padres e hijos parent child o parent > child

https://pypi.org/project/soupsieve/#:~:text=Soup%20Sieve%20is%20a%20CSS%20selector%20library%20designed,and%20beyond%20%28though%20some%20are%20not%20yet%20implemented%29.


In [137]:
soup.select("a") # etiqueta

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [138]:
soup.select("title")

[<title>Página de prueba</title>]

In [139]:
soup.select("h1")

[<h1>El título de la página</h1>]

In [140]:
soup.select("body a") # Encuentra etiquetas debajo de otras etiquetas

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [141]:
# Encuentra etiquetas directamente debajo de otras etiquetas
soup.select("head > title")

[<title>Página de prueba</title>]

In [142]:
soup.select("head > meta")

[<meta charset="utf-8"/>]

In [143]:
soup.select("body > div > p")

[<p>Este es el primer párrafo</p>, <p>Este es el segundo párrafo</p>]

In [144]:
soup.select(".links") # . especifica que es una clase

[<div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>,
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>,
 <div class="links footer-links">
 <a href="https://pagina5.xyz/">Enlace 5</a>
 </div>]

In [145]:
soup.select("#innerDiv") # el # especifica que es un id

[<div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>
 </div>]

In [146]:
soup.select("div#innerDiv") # etiqueta div # -> id="innerDiv"

[<div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>
 </div>]

In [147]:
soup.select('a[href]')

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [148]:
soup.select('a[href^="https://pagina1"]') # atributo = value ^ que comience en

[<a href="https://pagina1.xyz/">Enlace 1</a>]

In [149]:
soup.select('a[href$=".xyz/"]') # atributo - value $ que termine en

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [150]:
soup.select('a[href*="pagina"]') # atributo - value * todo

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

### Extraer valor de los atributos

In [151]:
tag = soup.select("a")
tag

[<a href="https://pagina1.xyz/">Enlace 1</a>,
 <a href="https://pagina2.xyz/">Enlace 2</a>,
 <a href="https://pagina3.xyz/">Enlace 3</a>,
 <a href="https://pagina4.xyz/">Enlace 4</a>,
 <a href="https://pagina5.xyz/">Enlace 5</a>]

In [152]:
tag = soup.select("a")
for t in tag:
    print(t.get("href"))

https://pagina1.xyz/
https://pagina2.xyz/
https://pagina3.xyz/
https://pagina4.xyz/
https://pagina5.xyz/


In [153]:
tag = soup.select("a")
for t in tag:
    print(t.get_attribute_list("href")) # retorna cada elemento en una lista

['https://pagina1.xyz/']
['https://pagina2.xyz/']
['https://pagina3.xyz/']
['https://pagina4.xyz/']
['https://pagina5.xyz/']


In [154]:
tag = soup.select("a")
for t in tag:
    print(t.get_text("href"))

Enlace 1
Enlace 2
Enlace 3
Enlace 4
Enlace 5


In [None]:
# ^ acento cicurflejo

### Extraer Tablas

In [155]:
from bs4 import BeautifulSoup
import requests

In [105]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html") # parse "html5lib"
res.select("table > tbody") 

[<tbody><tr>
 <th>Continente
 </th>
 <th>Densidad<br/>(hab./km²)
 </th>
 <th>Superficie<br/>(km²)
 </th>
 <th>Población<br/>(2020)
 </th>
 <th>País más poblado<br/>(2020)
 </th>
 <th>Ciudad más poblada<br/>(2020)
 </th></tr>
 <tr>
 <td>Asia
 </td>
 <td style="text-align:right">106,8
 </td>
 <td style="text-align:right">44 010 000
 </td>
 <td style="text-align:right">4 701 010 000
 </td>
 <td><span class="flagicon"><a class="image" href="/wiki/Archivo:Flag_of_the_People%27s_Republic_of_China.svg" title="Bandera de la República Popular China"><img alt="Bandera de la República Popular China" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Flag_of_the_People%27s_Republic_of_China.svg/20px-Flag_of_the_People%27s_Republic_of_China.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Flag_of_the_People%27s_Republic_of_China.svg/30px-Flag_of_the_People%27s_Republic_of_China.sv

In [156]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html")
tags = res.table.tbody

cabeceras = tags.select("th")

cabecera = []

for i in cabeceras:
    cabecera.append(i.get_text().strip())
cabecera

['Continente',
 'Densidad(hab./km²)',
 'Superficie(km²)',
 'Población(2020)',
 'País más poblado(2020)',
 'Ciudad más poblada(2020)']

In [157]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html")
tags = res.table.tbody

resultados = tags.select("td")
poblacion = []

for i in resultados:
    poblacion.append(i.get_text().strip())
poblacion

['Asia',
 '106,8',
 '44\xa0010\xa0000',
 '4\xa0701\xa0010\xa0000',
 'China (1\xa0440\xa0000\xa0000)',
 'Tokio (37\xa0400\xa0000)',
 'África',
 '43,4',
 '30\xa0370\xa0000',
 '1\xa0320\xa0000\xa0000',
 'Nigeria (209\xa0205\xa0000)',
 'El Cairo (21\xa0323\xa0000).[10]\u200b',
 'América',
 '25,3',
 '43\xa0316\xa0000',
 '1\xa0098\xa0064\xa0000',
 'Estados Unidos (331\xa0125\xa0000)',
 'Ciudad de México (30\xa0077\xa0000)[11]\u200b',
 'Europa',
 '78,6',
 '10\xa0180\xa0000',
 '801\xa0000\xa0000',
 'Rusia (112\xa0000\xa0000 Europa)',
 'Moscú (18\xa0940\xa0000)',
 'Oceanía',
 '4,46',
 '9\xa0008\xa0500',
 '40\xa0201\xa0000',
 'Australia (27\xa0240\xa0000)',
 'Sídney (6\xa0550\xa0000)',
 'Antártida',
 '0,0003(varía)',
 '13\xa0720\xa0000',
 '4490(no permanente, varía)[12]\u200b',
 'N.D.[nota 1]\u200b',
 'N.D.']

In [158]:
p_mundial = []
lista = []
i=0
for j in range(6):
    for x in range(6):
        lista.append(poblacion[i])
        i += 1
    p_mundial.append(lista)
    lista = []
    if j != 0:
        i = j * 6
p_mundial

[['Asia',
  '106,8',
  '44\xa0010\xa0000',
  '4\xa0701\xa0010\xa0000',
  'China (1\xa0440\xa0000\xa0000)',
  'Tokio (37\xa0400\xa0000)'],
 ['África',
  '43,4',
  '30\xa0370\xa0000',
  '1\xa0320\xa0000\xa0000',
  'Nigeria (209\xa0205\xa0000)',
  'El Cairo (21\xa0323\xa0000).[10]\u200b'],
 ['África',
  '43,4',
  '30\xa0370\xa0000',
  '1\xa0320\xa0000\xa0000',
  'Nigeria (209\xa0205\xa0000)',
  'El Cairo (21\xa0323\xa0000).[10]\u200b'],
 ['América',
  '25,3',
  '43\xa0316\xa0000',
  '1\xa0098\xa0064\xa0000',
  'Estados Unidos (331\xa0125\xa0000)',
  'Ciudad de México (30\xa0077\xa0000)[11]\u200b'],
 ['Europa',
  '78,6',
  '10\xa0180\xa0000',
  '801\xa0000\xa0000',
  'Rusia (112\xa0000\xa0000 Europa)',
  'Moscú (18\xa0940\xa0000)'],
 ['Oceanía',
  '4,46',
  '9\xa0008\xa0500',
  '40\xa0201\xa0000',
  'Australia (27\xa0240\xa0000)',
  'Sídney (6\xa0550\xa0000)']]

In [159]:
import pandas as pd
import numpy as np

df = pd.DataFrame(p_mundial, columns = cabecera)
df

Unnamed: 0,Continente,Densidad(hab./km²),Superficie(km²),Población(2020),País más poblado(2020),Ciudad más poblada(2020)
0,Asia,1068,44 010 000,4 701 010 000,China (1 440 000 000),Tokio (37 400 000)
1,África,434,30 370 000,1 320 000 000,Nigeria (209 205 000),El Cairo (21 323 000).[10]​
2,África,434,30 370 000,1 320 000 000,Nigeria (209 205 000),El Cairo (21 323 000).[10]​
3,América,253,43 316 000,1 098 064 000,Estados Unidos (331 125 000),Ciudad de México (30 077 000)[11]​
4,Europa,786,10 180 000,801 000 000,Rusia (112 000 000 Europa),Moscú (18 940 000)
5,Oceanía,446,9 008 500,40 201 000,Australia (27 240 000),Sídney (6 550 000)


### Extraer tablas desde una web con pandas

In [160]:
import pandas as pd

url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"

# Crea un dataframe con todas las tablas

df = pd.read_html(url)
df

[  Continente Densidad(hab./km²) Superficie(km²)  \
 0       Asia               1068      44 010 000   
 1     África                434      30 370 000   
 2    América                253      43 316 000   
 3     Europa                786      10 180 000   
 4    Oceanía                446       9 008 500   
 5  Antártida      0,0003(varía)      13 720 000   
 
                    Población(2020)        País más poblado(2020)  \
 0                    4 701 010 000         China (1 440 000 000)   
 1                    1 320 000 000         Nigeria (209 205 000)   
 2                    1 098 064 000  Estados Unidos (331 125 000)   
 3                      801 000 000    Rusia (112 000 000 Europa)   
 4                       40 201 000        Australia (27 240 000)   
 5  4490(no permanente, varía)[12]​                 N.D.[nota 1]​   
 
              Ciudad más poblada(2020)  
 0                  Tokio (37 400 000)  
 1         El Cairo (21 323 000).[10]​  
 2  Ciudad de México (30 0

In [161]:
# Verificamos la cantidad de tablas generadas
len(df)

3

In [162]:
type(df)

list

In [163]:
# Creamos un nuevo DataFrame para cada tabla

df_p_continente = df[0]
df_p_continente

Unnamed: 0,Continente,Densidad(hab./km²),Superficie(km²),Población(2020),País más poblado(2020),Ciudad más poblada(2020)
0,Asia,1068,44 010 000,4 701 010 000,China (1 440 000 000),Tokio (37 400 000)
1,África,434,30 370 000,1 320 000 000,Nigeria (209 205 000),El Cairo (21 323 000).[10]​
2,América,253,43 316 000,1 098 064 000,Estados Unidos (331 125 000),Ciudad de México (30 077 000)[11]​
3,Europa,786,10 180 000,801 000 000,Rusia (112 000 000 Europa),Moscú (18 940 000)
4,Oceanía,446,9 008 500,40 201 000,Australia (27 240 000),Sídney (6 550 000)
5,Antártida,"0,0003(varía)",13 720 000,"4490(no permanente, varía)[12]​",N.D.[nota 1]​,N.D.


In [164]:
df_p_hist_mundial = df[1]
df_p_hist_mundial

Unnamed: 0,Año,Total,África,Asia,Europa,América,Oceanía,Crecimientoentre periodos,Crecimientoanual medio (%)
0,10000 a. C.,1 000 000,,,,,,,
1,8000 a. C.,8 000 000,,,,,,,
2,1000 a. C.,50 000 000,,,,,,,
3,500 a. C.,100 000 000,,,,,,,
4,1 d.C.,200 000 000,,,,,,,
5,1000,310 000 000,,,,,,,
6,1750,791 000 000,106 000 000,502 000 000,163 000 000,18 000 000,2 000 000,,
7,1800,978 000 000,107 000 000,635 000 000,203 000 000,31 000 000,2 000 000,"23,64 %","0,43 %"
8,1850,1 262 000 000,111 000 000,809 000 000,276 000 000,64 000 000,2 000 000,"29,04 %","0,51 %"
9,1900,1 650 000 000,133 000 000,947 000 000,408 000 000,156 000 000,6 000 000,"30,74 %","0,54 %"


In [165]:
df[2]

Unnamed: 0,0,1
0,Control de autoridades,Proyectos Wikimedia Datos: Q11188 Multimedia...


### Manejo de errores

    Un error HTTPError es provocado por un código de respuesta de error
    Un error URLError es provocado porque no existe conexión o el dominio es incorrecto.
    
    En una consulta con BeatifulSoup puede ocurrir que el elemento solicitado no exista. 
    En este caso no se lanzará una excepción, sino que obtendremos el valor None como respuesta


In [116]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

from bs4 import BeautifulSoup

try:
    html = urlopen("https://www.python.org/")
except HTTPError as ex:
    print(ex)
except URLError:
    print("Servidor caído o dominio incorrecto.")
else:
    res = BeautifulSoup(html.read(), "html5lib")
if res.title is None:
    print("Etiqueta no encontrada.")
else:
    print(res.title) # Imprime el título de la página

<title>Welcome to Python.org</title>


### Ejemplo

In [187]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.amazon.es/gp/most-wished-for/books?ref_=Oct_d_omwf_S&pd_rd_w=7jREM&pf_rd_p=dbaa2a38-774d-404a-bd20-b06321c0935b&pf_rd_r=NGR7FBC1SC600T2EF2G5&pd_rd_r=5ace16a8-104a-4e6b-a156-46c619f88b4f&pd_rd_wg=Kfb6F'
r = requests.get(url)

soup = BeautifulSoup(r.text,"html" ) #'lxml'
soup

<!DOCTYPE html>
<html class="a-no-js" data-19ax5a9jf="dingo" lang="es-es"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8"/>
<!-- sp:end-feature:head-start -->
<!-- sp:feature:cs-optimization -->
<meta content="on" http-equiv="x-dns-prefetch-control"/>
<link href="https://images-eu.ssl-images-amazon.com" rel="dns-prefetch"/>
<link href="https://m.media-amazon.com" rel="dns-prefetch"/>
<link href="https://completion.amazon.com" rel="dns-prefetch"/>
<!-- sp:end-feature:cs-optimization -->
<!-- sp:feature:aui-assets -->
<link href="https://images-eu.ssl-images-amazon.com/images/I/11EIQ5IGqaL._RC|01ZTHTZObnL.css,41wZkyTaWoL.css,31Y8m1dzTdL.css,013z33uKh2L.css,017DsKjNQJL.css,0131vqwP5UL.css,41EWOOlBJ9L.css,11TIuySqr6L.css,01ElnPiDxWL.css,11bGSgD5pDL.css,01Dm5eKVxwL.css,01IdKcBuAdL.css,01y-XAlI+2L.css,21N4kUH7pxL.css,01oDR3IULNL.css,41CYNGpGlrL.css,01XPHJk60-L.css,114y0SIP+yL.css,21aPhFy+riL.css,11gneA3MtJL.css,21fecG8pUzL.c

In [201]:
 soup.title

<title>Amazon.es Los más deseados: Artículos que los clientes han añadido más a menudo a las listas de deseos de Libros.</title>

In [202]:
soup.title.string

'Amazon.es Los más deseados: Artículos que los clientes han añadido más a menudo a las listas de deseos de Libros.'

In [203]:
soup.meta

<meta charset="utf-8"/>

In [204]:
enlaces = soup.find_all('a')
for enlace in enlaces:
    print(enlace)

<a href="/gp/help/customer/display.html?nodeId=201890250&amp;ref_=footer_cookies_notice">Aviso de cookies</a>
<a href="/gp/help/customer/display.html?nodeId=201890250&amp;ref_=footer_cookies_notice">Aviso de cookies</a>
<a href="/cookieprefs/partners">de terceros</a>
<a href="/cookieprefs?ref_=ya_d_l_cookie_prefs">Preferencias de cookies</a>
<a href="/gp/help/customer/display.html?nodeId=201909010&amp;ref_=footer_privacy">Aviso de privacidad</a>
<a class="a-button-text a-text-center celwidget" href="/cookieprefs?ref_=portal_banner_cpp" id="sp-cc-customize" tabindex="1">Personalizar cookies</a>
<a id="nav-top"></a>
<a class="skip-link" id="skiplink" tabindex="0">Saltar al contenido principal</a>
<a aria-label="Amazon.es" class="nav-logo-link nav-progressive-attribute" href="/ref=nav_logo" id="nav-logo-sprites">
<span class="nav-sprite nav-logo-base"></span>
<span class="nav-sprite nav-logo-ext nav-progressive-content" id="logo-ext"></span>
<span class="nav-logo-locale">.es</span>
</a>
<

In [205]:
footer = soup.find_all(id='skippedLink')
footer

[<a id="skippedLink" tabindex="-1"></a>]

In [206]:
import re
tags = soup.find_all("img", {"src": re.compile(".*\.jpg")})
tags

[<img alt="Descubre las ofertas" src="https://images-eu.ssl-images-amazon.com/images/G/30/Events/XCM_Manual_1300350_1531261_ES_es_swm_es_es_3615969_400x39_es_ES._CB412344618_.jpg"/>,
 <img alt="Roma soy yo: La verdadera historia de Julio César (Histórica)" class="a-dynamic-image p13n-sc-dynamic-image p13n-product-image" data-a-dynamic-image='{"https://images-eu.ssl-images-amazon.com/images/I/719yqLXOmyL._AC_UL302_SR302,200_.jpg":[302,200],"https://images-eu.ssl-images-amazon.com/images/I/719yqLXOmyL._AC_UL604_SR604,400_.jpg":[604,400],"https://images-eu.ssl-images-amazon.com/images/I/719yqLXOmyL._AC_UL906_SR906,600_.jpg":[906,600]}' height="200px" src="https://images-eu.ssl-images-amazon.com/images/I/719yqLXOmyL._AC_UL302_SR302,200_.jpg" style="max-width:302px;max-height:200px"/>,
 <img alt="Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)" class="a-dynamic-image p13n-sc-dynamic-image p13n-product-image" data-a-dynamic-image='{"https://images-eu.ssl-ima

In [194]:
import re
tags = soup.find_all("img", {"src": re.compile(".*\.jpg")})

for i in tags:
    print(i["src"])


https://images-eu.ssl-images-amazon.com/images/G/30/Events/XCM_Manual_1300350_1531261_ES_es_swm_es_es_3615969_400x39_es_ES._CB412344618_.jpg
https://images-eu.ssl-images-amazon.com/images/I/719yqLXOmyL._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/71prwdyuE7L._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/712cARV+H7S._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/81yZvh71EML._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/71PfWK0ZkuL._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/8137pZXGy+L._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/71uwlQSIF7L._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/713VFV-mA+L._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/61b9eQCzb+L._AC_UL302_SR302,200_.jpg
https://images-eu.ssl-images-amazon.com/images/I/81VdGb6tc1L._AC_UL302_SR302,200_.jpg

In [195]:
soup.select('a[href]')

[<a href="/gp/help/customer/display.html?nodeId=201890250&amp;ref_=footer_cookies_notice">Aviso de cookies</a>,
 <a href="/gp/help/customer/display.html?nodeId=201890250&amp;ref_=footer_cookies_notice">Aviso de cookies</a>,
 <a href="/cookieprefs/partners">de terceros</a>,
 <a href="/cookieprefs?ref_=ya_d_l_cookie_prefs">Preferencias de cookies</a>,
 <a href="/gp/help/customer/display.html?nodeId=201909010&amp;ref_=footer_privacy">Aviso de privacidad</a>,
 <a class="a-button-text a-text-center celwidget" href="/cookieprefs?ref_=portal_banner_cpp" id="sp-cc-customize" tabindex="1">Personalizar cookies</a>,
 <a aria-label="Amazon.es" class="nav-logo-link nav-progressive-attribute" href="/ref=nav_logo" id="nav-logo-sprites">
 <span class="nav-sprite nav-logo-base"></span>
 <span class="nav-sprite nav-logo-ext nav-progressive-content" id="logo-ext"></span>
 <span class="nav-logo-locale">.es</span>
 </a>,
 <a aria-label="Elige un idioma para comprar." class="nav-a nav-a-2 icp-link-style-2" 

In [197]:
soup.find_all('div', class_="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y")

[<div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Roma soy yo: La verdadera historia de Julio César (Histórica)</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Santiago Posteguillo</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">James Clear</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Encuentra tu persona vitamina (F. COLECCION)</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Marian Rojas Estapé</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Cómo hacer que te pasen cosas buenas: Entiende tu cerebro, gestiona tus emociones, mejora tu vida (Fuera de colección)</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Marian Rojas Estapé</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">El mapa de los anhelos ((Fuera de colección))</div>,
 <div class="_cDEzb_p13n-sc-css-line-clamp

### Extraer los titulos de los libros

In [199]:
import re
titulos = soup.find_all("img", {"alt": re.compile("(.*?)")})
l_titulos = []

for i in titulos:
    if len(i["alt"].strip()) > 0:
        l_titulos.append(i["alt"].strip())
        
l_titulos 


['Descubre las ofertas',
 'Roma soy yo: La verdadera historia de Julio César (Histórica)',
 'Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)',
 'Encuentra tu persona vitamina (F. COLECCION)',
 'Cómo hacer que te pasen cosas buenas: Entiende tu cerebro, gestiona tus emociones, mejora tu vida (Fuera de colección)',
 'El mapa de los anhelos ((Fuera de colección))',
 'Por si las voces vuelven (No Ficción)',
 'Curso de escritura creativa (Sine Qua Non)',
 'Verdades a la cara (BIO)',
 'La hipótesis del amor (Contraluz)',
 'ARCADE CLASSICS COLLECTION: Las máquinas recreativas de tu infancia',
 'Historia de un gato (Lumen Gráfica)',
 'El peligro de estar cuerda (Biblioteca Breve)',
 'Una corona de huesos dorados (#RomanceParanormal)',
 'Los cinco mandamientos para tener una vida plena: ¿De qué no deberías arrepentirte nunca? (Clave)',
 'Los seis de Atlas (Umbriel narrativa)',
 'El gato que amaba los libros (Grijalbo Narrativa)',
 'La muerte contada por un sapi

In [207]:
autores = soup.find_all('span', class_="a-size-small a-color-base")
l_autores = []

for i in autores:
    l_autores.append(i.text.strip())
    
l_autores


['Santiago Posteguillo',
 'James Clear',
 'Marian Rojas Estapé',
 'Marian Rojas Estapé',
 'Alice Kellen',
 'Ángel Martín',
 'Brandon Sanderson',
 'Pablo Iglesias',
 'Ali Hazelwood',
 'Enrique Segura Alcalde',
 'Laura Agustí',
 'Rosa Montero',
 'JENNIFER ARMENTROUT',
 'Bronnie Ware',
 'Olivie Blake',
 'Sosuke Natsukawa',
 'Juan José Millás',
 'Eloy Moreno',
 'Viktor Emil Frankl',
 'Dale Carnegie',
 'Tamara Gorro',
 'Nicolas Deneschau',
 'La Huertina de Toni',
 'Eva García Sáenz de Urturi',
 'Mark Manson',
 'Marcos Vázquez',
 'Nachter',
 'Vicente Vallés',
 'Mikecrack',
 'Juan José Millás',
 'María Esclapez',
 'Tricia Levenseller',
 'TAHEREH MAFI',
 'Donella Meadows',
 'Taylor Jenkins Reid',
 'Julia Quinn',
 'Elísabet Benavent',
 'Naomi Novik',
 'V. E. SCHWAB',
 'Alice Kellen',
 'JENNIFER ARMENTROUT',
 'Álvaro Bilbao',
 'Camilla Läckberg',
 'June & Lucy',
 'Julia Quinn',
 'Sandra Sabatés',
 'Marcos Vázquez',
 'Lucía Serrano',
 'Sarah J. Maas',
 'Elise Kova']

In [209]:
tapa = soup.find_all('span', class_="a-size-small a-color-secondary")
l_tapa = []

for i in tapa:
    l_tapa.append(i.text.strip())

l_tapa

[]

In [210]:
precios = soup.find_all('span', class_="p13n-sc-price")
l_precios = []

for i in precios:
    l_precios.append(i.text[:-1].strip() ) #+ i.text[-1].strip() 

l_precios

['19,70',
 '17,05',
 '18,90',
 '18,90',
 '17,00',
 '13,95',
 '19,85',
 '18,05',
 '18,00',
 '18,90',
 '16,85',
 '20,42',
 '11,35',
 '18,05',
 '15,90',
 '14,90',
 '14,45',
 '11,39',
 '13,65',
 '17,95',
 '23,70',
 '20,80',
 '16,80',
 '14,00',
 '15,90',
 '14,15',
 '19,85',
 '15,00',
 '14,90',
 '17,95',
 '16,10',
 '15,20',
 '17,57',
 '38,99',
 '14,25',
 '17,95',
 '16,96',
 '15,20',
 '8,50',
 '18,94',
 '17,10',
 '22,70',
 '7,99',
 '14,25',
 '17,95',
 '16,30',
 '14,15',
 '16,95',
 '16,15']

In [215]:
# Creamos un diccionario

libros = {}
pos = 0
for titulo in l_titulos[1:40]:
    libros[titulo] = {l_autores[pos],  l_precios[pos]}
    pos += 1
    
libros

{'Roma soy yo: La verdadera historia de Julio César (Histórica)': {'19,70',
  'Santiago Posteguillo'},
 'Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)': {'17,05',
  'James Clear'},
 'Encuentra tu persona vitamina (F. COLECCION)': {'18,90',
  'Marian Rojas Estapé'},
 'Cómo hacer que te pasen cosas buenas: Entiende tu cerebro, gestiona tus emociones, mejora tu vida (Fuera de colección)': {'18,90',
  'Marian Rojas Estapé'},
 'El mapa de los anhelos ((Fuera de colección))': {'17,00', 'Alice Kellen'},
 'Por si las voces vuelven (No Ficción)': {'13,95', 'Ángel Martín'},
 'Curso de escritura creativa (Sine Qua Non)': {'19,85', 'Brandon Sanderson'},
 'Verdades a la cara (BIO)': {'18,05', 'Pablo Iglesias'},
 'La hipótesis del amor (Contraluz)': {'18,00', 'Ali Hazelwood'},
 'ARCADE CLASSICS COLLECTION: Las máquinas recreativas de tu infancia': {'18,90',
  'Enrique Segura Alcalde'},
 'Historia de un gato (Lumen Gráfica)': {'16,85', 'Laura Agustí'},
 'El peligro

In [216]:
libros['Invisible (Nube de Tinta)']

{'11,39', 'Eloy Moreno'}

In [218]:
libros['El Hombre en busca de Sentido']

{'13,65', 'Viktor Emil Frankl'}

In [None]:
# Crearemos un DataFrame

In [219]:
libros_amazon = {}
libros_amazon["autores"] = l_autores[:40]

In [220]:
libros_amazon

{'autores': ['Santiago Posteguillo',
  'James Clear',
  'Marian Rojas Estapé',
  'Marian Rojas Estapé',
  'Alice Kellen',
  'Ángel Martín',
  'Brandon Sanderson',
  'Pablo Iglesias',
  'Ali Hazelwood',
  'Enrique Segura Alcalde',
  'Laura Agustí',
  'Rosa Montero',
  'JENNIFER ARMENTROUT',
  'Bronnie Ware',
  'Olivie Blake',
  'Sosuke Natsukawa',
  'Juan José Millás',
  'Eloy Moreno',
  'Viktor Emil Frankl',
  'Dale Carnegie',
  'Tamara Gorro',
  'Nicolas Deneschau',
  'La Huertina de Toni',
  'Eva García Sáenz de Urturi',
  'Mark Manson',
  'Marcos Vázquez',
  'Nachter',
  'Vicente Vallés',
  'Mikecrack',
  'Juan José Millás',
  'María Esclapez',
  'Tricia Levenseller',
  'TAHEREH MAFI',
  'Donella Meadows',
  'Taylor Jenkins Reid',
  'Julia Quinn',
  'Elísabet Benavent',
  'Naomi Novik',
  'V. E. SCHWAB',
  'Alice Kellen']}

In [231]:
libros_amazon["titulos"] = l_titulos[1:41]

In [232]:
libros_amazon

{'autores': ['Santiago Posteguillo',
  'James Clear',
  'Marian Rojas Estapé',
  'Marian Rojas Estapé',
  'Alice Kellen',
  'Ángel Martín',
  'Brandon Sanderson',
  'Pablo Iglesias',
  'Ali Hazelwood',
  'Enrique Segura Alcalde',
  'Laura Agustí',
  'Rosa Montero',
  'JENNIFER ARMENTROUT',
  'Bronnie Ware',
  'Olivie Blake',
  'Sosuke Natsukawa',
  'Juan José Millás',
  'Eloy Moreno',
  'Viktor Emil Frankl',
  'Dale Carnegie',
  'Tamara Gorro',
  'Nicolas Deneschau',
  'La Huertina de Toni',
  'Eva García Sáenz de Urturi',
  'Mark Manson',
  'Marcos Vázquez',
  'Nachter',
  'Vicente Vallés',
  'Mikecrack',
  'Juan José Millás',
  'María Esclapez',
  'Tricia Levenseller',
  'TAHEREH MAFI',
  'Donella Meadows',
  'Taylor Jenkins Reid',
  'Julia Quinn',
  'Elísabet Benavent',
  'Naomi Novik',
  'V. E. SCHWAB',
  'Alice Kellen'],
 'titulos': ['Roma soy yo: La verdadera historia de Julio César (Histórica)',
  'Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)

In [233]:
#libros_amazon["tapa"] = l_tapa[:40]
libros_amazon["precio"] = l_precios[:40]

In [234]:
libros_amazon

{'autores': ['Santiago Posteguillo',
  'James Clear',
  'Marian Rojas Estapé',
  'Marian Rojas Estapé',
  'Alice Kellen',
  'Ángel Martín',
  'Brandon Sanderson',
  'Pablo Iglesias',
  'Ali Hazelwood',
  'Enrique Segura Alcalde',
  'Laura Agustí',
  'Rosa Montero',
  'JENNIFER ARMENTROUT',
  'Bronnie Ware',
  'Olivie Blake',
  'Sosuke Natsukawa',
  'Juan José Millás',
  'Eloy Moreno',
  'Viktor Emil Frankl',
  'Dale Carnegie',
  'Tamara Gorro',
  'Nicolas Deneschau',
  'La Huertina de Toni',
  'Eva García Sáenz de Urturi',
  'Mark Manson',
  'Marcos Vázquez',
  'Nachter',
  'Vicente Vallés',
  'Mikecrack',
  'Juan José Millás',
  'María Esclapez',
  'Tricia Levenseller',
  'TAHEREH MAFI',
  'Donella Meadows',
  'Taylor Jenkins Reid',
  'Julia Quinn',
  'Elísabet Benavent',
  'Naomi Novik',
  'V. E. SCHWAB',
  'Alice Kellen'],
 'titulos': ['Roma soy yo: La verdadera historia de Julio César (Histórica)',
  'Hábitos atómicos: Cambios pequeños, resultados extraordinarios (Autoconocimiento)

In [235]:
import pandas as pd

df_libros_amazon = pd.DataFrame(libros_amazon)
df_libros_amazon

Unnamed: 0,autores,titulos,precio
0,Santiago Posteguillo,Roma soy yo: La verdadera historia de Julio Cé...,1970
1,James Clear,"Hábitos atómicos: Cambios pequeños, resultados...",1705
2,Marian Rojas Estapé,Encuentra tu persona vitamina (F. COLECCION),1890
3,Marian Rojas Estapé,Cómo hacer que te pasen cosas buenas: Entiende...,1890
4,Alice Kellen,El mapa de los anhelos ((Fuera de colección)),1700
5,Ángel Martín,Por si las voces vuelven (No Ficción),1395
6,Brandon Sanderson,Curso de escritura creativa (Sine Qua Non),1985
7,Pablo Iglesias,Verdades a la cara (BIO),1805
8,Ali Hazelwood,La hipótesis del amor (Contraluz),1800
9,Enrique Segura Alcalde,ARCADE CLASSICS COLLECTION: Las máquinas recre...,1890


# Selenium

    Selenium es un framework portátil que permite automatizar las funcionalidades de los navegadores web utilizando una
    amplia gama de lenguajes de programación. Mientras que se utiliza principalmente para probar aplicaciones web 
    automáticamente, también se puede utilizar para extraer datos en línea.

In [None]:
# Instalar instalar la librería Python para Selenium
!pip install selenium

## Instalar el WebDriver para Chrome

Pasos:

1. Verificar la version de Chrome: ... - Ayuda - Acerca de

![image-6.png](attachment:image-6.png)

2. Obtener el driver de acuerdo a nuestra version de Chrome

    https://sites.google.com/chromium.org/driver/
    
    https://sites.google.com/a/chromium.org/chromedriver/downloads
    
![image-5.png](attachment:image-5.png)

3. Crear una carpeta C:\Program Files (x86)\Chromedriver y copiar el fichero 
    
Para mas información:

    https://www.selenium.dev/documentation/en/webdriver/driver_requirements/

In [241]:
# Importar los modulos

from selenium import webdriver # inicializar el browser
from selenium.webdriver.common.keys import Keys # Emula el teclado
from selenium.webdriver.common.by import By # buscar items
from selenium.webdriver.support.ui import WebDriverWait # carga la página
from selenium.webdriver.support import expected_conditions as EC # emite instrucciones para esperar al resto del código

In [242]:
# Inicializar el WebDriver de Chrome, abre el navegador con una ventana en blanco

PATH = "C:\Program Files (x86)\Chromedriver\chromedriver.exe"
driver = webdriver.Chrome(PATH)
driver

<selenium.webdriver.chrome.webdriver.WebDriver (session="168b1228deda0fb536769c2581b94866")>

In [243]:
# Navegar en la página web https://www.reddit.com/

driver.get("https://www.reddit.com/")

In [244]:
# Localizar el cuadro de búsqueda

search = driver.find_element_by_name("q")
search

<selenium.webdriver.remote.webelement.WebElement (session="168b1228deda0fb536769c2581b94866", element="0b2b6362-3d8f-433e-8172-136162f462c4")>

In [245]:
# Introducimos el término de búsqueda "scraping"

search.send_keys("scraping")
search.send_keys(Keys.RETURN)

In [None]:
# Buscamos dentro del código de la página web la clase que contiene todos los encabezados
# en nuestro caso "_3Up38k81YNBWQoW1ovMU88"

 <div class="_3Up38k81YNBWQoW1ovMU88"><div><div data-testid="search-results-nav" class="_3ZVtna7z8ubZ_0xlkz8Ciq"><div class="_17ENg3CVcX9h4tizklzbBA" role="tablist"><a class="_3VRnVFcuw-VlyOQOYOl2aT" aria-selected="true" role="tab" href="/search/?q=scraping&amp;type="><button class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _2dj14FxV-bfkwopj1jV_fF">Publicaciones</button></a><a class="_3VRnVFcuw-VlyOQOYOl2aT" aria-selected="false" role="tab" href="/search/?q=scraping&amp;type=sr%2Cuser"><button class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk">Comunidades y gente</button></a></div></div><div data-testid="search-results-subnav" class="XZK-LTFT5CgGo9MvPQQsy _26jxFFm8Z3TxPyZxoddAGy"><div class="_22_pCIPvWXgGDvfV4Hi_RZ"><button data-testid="search-results-filter-sort" class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk _2RO66v7UQZQ1jiF36lZdHr">Ordenar<i class="_26YOIiLM0ZScbbxLq0o7I0 icon icon-caret_down"></i></button><div id="search-results-sort"></div></div><div class="_22_pCIPvWXgGDvfV4Hi_RZ"><button data-testid="search-results-filter-time" class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk _2RO66v7UQZQ1jiF36lZdHr">Hora<i class="_26YOIiLM0ZScbbxLq0o7I0 icon icon-caret_down"></i></button><div id="search-results-time"></div></div></div></div><div class="_2lzCpzHH0OvyFsvuESLurr _3SktesklDBwXt2pEl0sHY8"><div class="_1BJGsKulUQfhJyO19XsBph _3SktesklDBwXt2pEl0sHY8"><div tabindex="0"></div><div class="EmAI60CZ6hqtjh7kIC2SS"><div class="QBfRw7Rj8UkxybFpX-USO"><div><div><div class="_1oQyIsiPHYt6nx7VOmd1sz _2dkUkgRYbhbpU_2O2Wc5am _28efb5XEIggTEMzT5v9i61 scrollerItem Post t3_qgdx1z " data-testid="post-container" id="t3_qgdx1z" tabindex="-1" style="color: rgb(135, 138, 140); cursor: pointer; fill: rgb(135, 138, 140);"><div class="_1poyrkZ7g36PawDueRza-J" data-click-id="background" style="background: rgb(255, 255, 255);"><div class="_2i5O0KNpb9tDq0bsNOZB_Q " data-click-id="body"><div class="_37TF67KpZQl9SHbiAhz3mf _3xeOZ4NlqvpwzbB5E8QC6r"><div class="_2mHuuvyV9doV3zwbZPtIPG _3Wz607wX-KXslTUjYvTZWi _3Wz607wX-KXslTUjYvTZWi"><a href="/r/Python/"><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2qh0y/styles/communityIcon_h9cdwd9m75a51.png?width=256&amp;s=d4d1eb25f0a6853d76836ca30184fc9a67a57464" class="_34CfAAowTqdbNDYXz5tBTW _33bYVIxJlbFcqiiYlexnqp id5ExZR7GqiUypGICnSYs" style="background-color: rgb(34, 58, 85);"></a><a data-testid="subreddit-name" data-click-id="subreddit" class="_3ryJoIoycVkA88fy40qNJc _305seOZmrgus3clHOXCmfs" href="/r/Python/">r/Python</a><div class="_3Wz607wX-KXslTUjYvTZWi _3Wz607wX-KXslTUjYvTZWi" id="SubredditInfoTooltip--t3_qgdx1z--Python"></div></div><span class="_3LS4zudUBagjFS7HjWJYxo _37gsGHa8DMRAxBmQS-Ppg8" role="presentation">•</span><div class="_3AStxql1mQsrZuUIFP9xSg _1wxi9M8fCejzbsH0YGSer2"><span class="_2fCzxBE1dlMh4OFc7B3Dun" style="color: rgb(120, 124, 126);">Publicado por</span><div class="_2mHuuvyV9doV3zwbZPtIPG"><a class="_2tbHP6ZydRpjI44J3syuqC  _23wugcdiaj44hdfugIAlnX oQctV4n0yUb0uiHDdGnmE" href="/user/backdoorman9/" style="color: rgb(120, 124, 126);">u/backdoorman9</a><div id="UserInfoTooltip--t3_qgdx1z"></div></div><a class="_3jOxDPIQ0KaOWpzvSQo-1s" data-click-id="timestamp" href="https://www.reddit.com/r/Python/comments/qgdx1z/web_scraping_in_a_professional_setting_selenium/" target="_blank" rel="nofollow noopener noreferrer" style="color: rgb(120, 124, 126);">hace 1 mes</a></div></div><div class="_19FzInkloQSdrf0rh3Omen"><div><div class="_2FCtq-QzlfuN-SwVMUZMM3 t3_qgdx1z"><div class="y8HYJ-y_lTUHkQIc1mdCq _2INHSNB8V5eaWp4P0rY_mE"><a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z _2INHSNB8V5eaWp4P0rY_mE" href="/r/Python/comments/qgdx1z/web_scraping_in_a_professional_setting_selenium/"><div class="_2SdHzo12ISmrC8H86TgSCp _1zpZYP8cFNLfLDexPY65Y7 " style="--posttitletextcolor:#222222;"><h3 class="_eYtD2XCVieq6emjKBH3m">Web <span class="_1Nh8xLEUG3orjY1k1aijj">Scraping</span> in a professional setting: Selenium vs. BeautifulSoup</h3></div></a></div><div class="_2xu1HuBz1Yx6SP10AGVx_I" data-ignore-click="false"><div class="lrzZ8b0L6AzLkQj5Ww7H1"></div><div class="lrzZ8b0L6AzLkQj5Ww7H1"><a href="/r/Python/?f=flair_name%3A%22Discussion%22"><div class="_2X6EB3ZhEeXCh1eIVA64XM _2hSecp_zkPm_s5ddV2htoj _2VqfzH0dZ9dIl3XWNxs42y aJrgrewN9C8x1Fusdx4hh " style="background-color: rgb(237, 239, 241); color: rgb(26, 26, 27);"><span>Discussion</span></div></a></div></div><div class="_1hLrLjnE1G_RBCNcN9MVQf">
              <img alt="" src="https://www.redditstatic.com/desktop2x/img/renderTimingPixel.png" style="width: 1px; height: 1px;" onload="(__markFirstPostVisible || function(){})();">
            </div><style>
        .t3_qgdx1z ._2FCtq-QzlfuN-SwVMUZMM3 {
          --postTitle-VisitedLinkColor: #9b9b9b;
          --postTitleLink-VisitedLinkColor: #9b9b9b;
       
        }
      </style></div></div><div class="Gk-MlLujgqsaX1n-sGa_O"><div class="_2MkcR85HDnYngvlVW2gMMa"><a href="https://i.redd.it/dbps4tnypsx71.jpg" rel="noopener nofollow ugc" target="_blank"><div aria-label="It is called &quot;Comming home from work, seeing a stuffed hotend scraping the metal plate&quot; STL anyone?😬😬😬" class="_2c1ElNxHftd8W_nZtcG9zf _33Pa96SGhFVpZeI6a7Y_Pl _2r9BZFotuBbLYnijAaskeZ " data-click-id="image" role="img" style="background-image: url(&quot;https://b.thumbs.redditmedia.com/aJJ9xSM7oGo1IG4i8OLLvXvp2UPOMOaQBvikQkMGiyQ.jpg&quot;); border-color: rgb(237, 239, 241);"><img alt="It is called &quot;Comming home from work, seeing a stuffed hotend scraping the metal plate&quot; STL anyone?😬😬😬" class="_25ZOvQhQdAqwdxPd5z-KFB hiddenImg"></div></a></div></div></div><div class="_2IpBiHtzKzIxk2fKI4UOv1 HNL__wz5plDpzJe5Lnn"><span class="_vaFo96phV6L5Hltvwcox">288 upvotes</span><span class="_vaFo96phV6L5Hltvwcox">77 comentarios</span><span class="_vaFo96phV6L5Hltvwcox">0 premios</span></div></div></div></div></div></div></div><div class="FohHGMokxXLkon1aacMoi"><div class="_3tBFh6Ty3gSaxW4gcm6hZ_"><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div></div></div></div></div><div class="_2iRJ8DI-3RTbsXRSDXE5ZG"><div data-testid="search-results-sidebar" class="_1FUNcfOeszr8eruqLxCMcR _35ky2Wm3TP6kFdIh-DOxmA"><div class="_2JPypBjLPFQo1pLekHV0qq" data-testid="communities-list"><h4 class="_1yTIcK7yas2a1pWJ4dACIl">Communities and People</h4><div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _2DUH3f7VrWC1DqRH4885YM _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/scraping/"><div><i class="_3NNJELf9FmGhKjI7UZ8cia _1xvdfUtOPDANqHjxzxKX5b  icon icon-community_fill" style="color: rgb(0, 121, 211);"></i></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/scraping</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">786 Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/learnpython/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2r8ot/styles/communityIcon_jwr5s7l5ici61.png?width=256&amp;s=45deb6f123031525835c1ab234a53be00bdbc207" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 121, 211);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/learnpython</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">572k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/oddlysatisfying/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2x93b/styles/communityIcon_eefpey65pli21.png?width=256&amp;s=6e82b7aa9e7d1760f3327620dba3dc09ee7b54f1" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 166, 165);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/oddlysatisfying</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">6.3m Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/Python/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2qh0y/styles/communityIcon_h9cdwd9m75a51.png?width=256&amp;s=d4d1eb25f0a6853d76836ca30184fc9a67a57464" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(34, 58, 85);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/Python</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">882k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/asmr/"><div><img alt="Icono de subreddit" role="presentation" src="https://b.thumbs.redditmedia.com/wn0QcDU3LaR8vTcHiNqtHdNT7UF7yEeOhOJ_A18PcxQ.png" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 121, 211);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/asmr</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">243k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div></div><a href="/search/?q=scraping&amp;type=sr%2Cuser"><p class="bu5zz8fSZ1Co_SUENbJO0">See more communities and people</p></a></div><div class="_1oRQu-aolgpPPJDblUGTw5"><div class=""><div class="_2wqyhtudP4weVGsZdVXJgt _1G4yU68P50vRZ4USXfaceV " data-redditstyle="false"><div class="_3RPJ8hHnfFohktLZca18J6 " style="max-height: none;"><div class="_1KrMye71CT332tKKKUWAj6"><div class="_3f2nSSsPBqVDV6Sz82qgrR"><a href="https://www.reddithelp.com" class="_3Eyh3vRo5o4IfzVZXhaWAG">ayuda</a><a href="https://www.reddit.com/coins" class="_3Eyh3vRo5o4IfzVZXhaWAG">Monedas de Reddit</a><a href="https://www.reddit.com/premium" class="_3Eyh3vRo5o4IfzVZXhaWAG">Reddit Premium</a><a href="https://redditgifts.com/" class="_3Eyh3vRo5o4IfzVZXhaWAG">Reddit gifts</a></div><div class="_3f2nSSsPBqVDV6Sz82qgrR"><a href="https://about.reddit.com" class="_3Eyh3vRo5o4IfzVZXhaWAG">acerca de</a><a href="https://about.reddit.com/careers/" class="_3Eyh3vRo5o4IfzVZXhaWAG">empleo</a><a href="https://about.reddit.com/press/" class="_3Eyh3vRo5o4IfzVZXhaWAG">prensa</a><a href="https://www.redditinc.com/advertising" class="_3Eyh3vRo5o4IfzVZXhaWAG">anunciarse</a><a href="http://www.redditblog.com/" class="_3Eyh3vRo5o4IfzVZXhaWAG">blog</a><a href="https://www.redditinc.com/policies/user-agreement" class="_3Eyh3vRo5o4IfzVZXhaWAG">Términos</a><a href="https://www.redditinc.com/policies/content-policy" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de contenido</a><a href="https://www.redditinc.com/policies/privacy-policy" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de privacidad</a><a href="https://www.reddit.com/help/healthycommunities/" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de moderación</a></div></div><div class="_34dh2eyzMvJfjCBLeoWiDD">Reddit Inc © 2021. Todos los derechos reservados</div></div></div></div><div class="_3Tc8YYRhVDX9vlR0XePZfH _365FiUZ11efXHV7l7fNp6K" style="top: calc(100vh - 8px);"><button role="button" tabindex="0" class="_1m03hmspTHlre1O1CXbY9Y _2iuoyPiKHN3kfOoeIQalDT _10BQ7pjWbeYP63SAPNS8Ts HNozj_dKjQZ59ZsfEegz8 ">Volver hacia arriba</button></div></div></div></div></div></div>
 <h3 class="_eYtD2XCVieq6emjKBH3m">Web <span class="_1Nh8xLEUG3orjY1k1aijj">Scraping</span> in a professional setting: Selenium vs. BeautifulSoup</h3>

In [246]:
# Localizar los resultados de búsqueda

search_results = WebDriverWait(driver, 20).until(
EC.presence_of_element_located((By.CLASS_NAME, "_3Up38k81YNBWQoW1ovMU88"))) 
search_results

<selenium.webdriver.remote.webelement.WebElement (session="168b1228deda0fb536769c2581b94866", element="c74d2d8b-a1f0-4d00-9e47-c0fa00da1652")>

In [None]:
# Buscamos en el código de la web el encabezado de una noticia
# para obtener las etiqueta que contienen el encabezado y la noticia h3 y span

# <h3 class="_eYtD2XCVieq6emjKBH3m"><span style="font-weight: normal;"><em style="font-weight: 700;">Scraping</em> ice off power lines</span></h3>

In [247]:
# Raspar los encabezados de los post’s
posts = search_results.find_elements_by_css_selector("h3._eYtD2XCVieq6emjKBH3m")

In [249]:
# Extraer el contenido de cada post

for post in posts:
    print(post.text)


Web scraping is legal, US appeals court reaffirms
Web scraping is legal, US appeals court reaffirms
Am I the only one that feels it's in poor taste to see that a pro football player just scored an $87.5M 5-year contract when others here are scraping to survive?
We are really scraping the bottom of the barrel...Exactly
C/S my car is making a scraping noise after you worked on it.
Here at Amazon, we care. To show you how much we care, we've scraped your search history for your weird 2 am health questions, and then mailed them back to you prominently displayed on the front of an envelope.
spotted fresh Ukrainian troop movement at 44°25'10."N 38°12'19."E i sure hope bots aren't scraping for intel and bomb them
HOnestly i think you girls are sleeping on my man DadPlanK 🤩 imAgine his beard scraping against your thighs 😳 as he devours you like warm jello 😤
Millennials not having kids: well I mean yeah, I can't find a preschool for my Kiddo and I'm going to barely scrape by paying for it when 

In [250]:
# Salir del navegador
driver.quit()

### Selenium con PhantomJS

    Existe una herramienta, llamada PhantomJS, que carga las páginas y ejecuta su código sin abrir ningún navegador.  
    Con PhantomJS podemos incluso interactuar con las cookies de las páginas descargadas y el JavaScript sin mayores 
    problemas. También podemos para hacer raspado o scraper de páginas y elementos dentro de estas páginas.
    
    Podemos descargar PhantomJS desde la dirección http://phantomjs.org/download.html
    en C:\Program Files (x86)\
    
    Extraer el contenido en la  carpeta 
    
    C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe

In [1]:
import warnings

warnings.filterwarnings('ignore')

In [None]:
!pip show -V selenium

In [None]:
!pip freeze

In [None]:
!pip uninstall selenium
!pip install -U selenium

In [251]:
# Selenium con PhantomJS

from selenium import webdriver
import platform

# Inicializar el web Driver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)

browser.get("https://www.python.org/")

Los métodos find_ retornan objetos de tipo 
selenium.webdriver.remote.webelement.WebElement
que representan un elemento DOM de la página. Sobre estos objetos podemos seguir realizando consultas con los métodos find_().


In [252]:
browser.find_element_by_class_name("introduction").text

'Python is a programming language that lets you work quickly and integrate systems more effectively. Learn More'

In [253]:
browser.find_element_by_class_name("main-header").text

'Donate\n≡ Menu\nSearch This Site\nA A\nSocialize\nPython is a programming language that lets you work quickly and integrate systems more effectively. Learn More'

In [254]:
browser.find_element_by__tagname("div").text #.text

AttributeError: 'WebDriver' object has no attribute 'find_element_by__tagname'

In [6]:
browser.find_element_by_tag_name("body").text

"Skip to content\nClose\nPython\nPSF\nDocs\nPyPI\nJobs\nCommunity\nThe Python Network\nDonate\n≡ Menu\nSearch This Site\nA A\nSocialize\nPython is a programming language that lets you work quickly and integrate systems more effectively. Learn More\nGet Started\nWhether you're new to programming or an experienced developer, it's easy to learn and use Python.\nStart with our Beginner’s Guide\nDownload\nPython source code and installers are available for download for all versions!\nLatest: Python 3.10.1\nDocs\nDocumentation for Python's standard library, along with tutorials and guides, are available online.\ndocs.python.org\nJobs\nLooking for work or have a Python related position that you're trying to hire for? Our relaunched community-run job board is the place to go.\njobs.python.org\nLatest News\nMore\n12-09\nPyPI User Feedback Summary\n12-08\nPython 3.11.0a3 is available\n12-07\nA message from the PSF's outgoing Executive Director\n12-07\nPython 3.10.1 is available\n11-24\nLoren Cra

In [255]:
browser.find_element_by_id("homepage").text

"Skip to content\nClose\nPython\nPSF\nDocs\nPyPI\nJobs\nCommunity\nThe Python Network\nDonate\n≡ Menu\nSearch This Site\nA A\nSocialize\nPython is a programming language that lets you work quickly and integrate systems more effectively. Learn More\nContribute today to the 𝛑thon PSF Spring Fundraiser and show your love for Python!   \nDonate Now\nGet Started\nWhether you're new to programming or an experienced developer, it's easy to learn and use Python.\nStart with our Beginner’s Guide\nDownload\nPython source code and installers are available for download for all versions!\nLatest: Python 3.10.4\nDocs\nDocumentation for Python's standard library, along with tutorials and guides, are available online.\ndocs.python.org\nJobs\nLooking for work or have a Python related position that you're trying to hire for? Our relaunched community-run job board is the place to go.\njobs.python.org\nLatest News\nMore\n04-21\nAnnouncing Python Software Foundation Fellow Members for Q1 2022! 🎉\n04-07\nPS

In [8]:
browser.find_element_by_id("homepage").id # ID interno usado por Selenium.

':wdc:1639134009565'

In [9]:
browser.find_element_by_id("homepage").location # la localización del elemento en el canvas renderizado.

{'x': 0, 'y': 0}

In [10]:
browser.find_element_by_id("homepage").size # tamaño del elemento.

{'height': 7127, 'width': 400}

In [11]:
browser.find_element_by_id("homepage").tag_name # nombre de etiqueta del elemento

'body'

In [256]:
elemento = browser.find_element_by_id("homepage")
elemento.get_attribute('class')

'python home'

In [257]:
elemento.get_property("text_length")

In [258]:
browser.close()

### Interacción de Selenium con BeatifulSoup.

    Podemos utilizar el poder de Beautiful Soup en el contenido devuelto desde Selenium, usando page_source

In [259]:
from selenium import webdriver
from bs4 import BeautifulSoup

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")
page = BeautifulSoup(browser.page_source,"html5lib")

links = page.findAll("a")

for link in links:
    print(link)
browser.close()

<a href="#content" title="Skip to content">Skip to content</a>
<a aria-hidden="true" class="jump-link" href="#python-network" id="close-python-network">
                    <span aria-hidden="true" class="icon-arrow-down"><span>▼</span></span> Close
                </a>
<a class="current_item selectedcurrent_branch selected" href="/" title="The Python Programming Language">Python</a>
<a href="/psf-landing/" title="The Python Software Foundation">PSF</a>
<a href="https://docs.python.org" title="Python Documentation">Docs</a>
<a href="https://pypi.org/" title="Python Package Index">PyPI</a>
<a href="/jobs/" title="Python Job Board">Jobs</a>
<a href="/community-landing/">Community</a>
<a aria-hidden="true" class="jump-link" href="#top" id="python-network">
                    <span aria-hidden="true" class="icon-arrow-up"><span>▲</span></span> The Python Network
                </a>
<a href="/"><img alt="python™" class="python-logo" src="/static/img/python-logo.png"/></a>
<a class="donate

### Extraer el contenido de un iframe usando Selenium

    Las páginas HTML utilizan elementos <iframe> para embeber dinámicamente el contenido de otras páginas.  
    Por tanto, este contenido no está disponible directamente, sino que deberemos acceder a la fuente del iframe.

In [None]:
<iframe id="inlineFrameExample" title="Inline Frame Example" width="300" height="200" src="https://www.openstreetmap.org/export/embed.html?bbox=-0.004017949104309083%2C51.47612752641776%2C0.00030577182769775396%2C51.478569861898606&amp;layer=mapnik">
</iframe>

In [260]:
from selenium import webdriver
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://sites.google.com/view/programacin-con-python/p%C3%A1gina-principal") # https://developer.mozilla.org/en-US/docs/Web/HTML/Element/iframe

# Localizamos un iframe
seq = browser.find_elements_by_tag_name("iframe")
print("No of frames present in the web page are: ", len(seq))

# Nos movemos al contenido del iframe
browser.switch_to.default_content()
iframe = browser.find_elements_by_tag_name('iframe')[0]
browser.switch_to.frame(iframe)
iframe_source = browser.page_source

# Imprimimos el contenido del iframe
print(iframe_source) #returns iframe source

No of frames present in the web page are:  1
<!DOCTYPE html><html lang="es" dir="ltr" data-cast-api-enabled="true"><head><script data-original-src="/s/player/ae36df5c/player_ias.vflset/es_ES/embed.js" nonce="Cu4gXpY265CW6o4KKCfReQ" src="/s/player/ae36df5c/player_ias.vflset/es_ES/embed.js"></script><script id="js-334081934" nonce="Cu4gXpY265CW6o4KKCfReQ" src="//www.google.com/js/th/X4M1xYlOt0vHAadVOaVB3KGXK1uoSDukxBS7d6ULwgc.js" data-loaded="true"></script><script id="js-1124342058" src="//static.doubleclick.net/instream/ad_status.js" nonce="Cu4gXpY265CW6o4KKCfReQ" data-loaded="true"></script><meta name="viewport" content="width=device-width, initial-scale=1"><style name="www-roboto" nonce="V9wa2UT1k68NBoPnB4AZug">@font-face{font-family:'Roboto';font-style:normal;font-weight:400;src:url(//fonts.gstatic.com/s/roboto/v18/KFOmCnqEu92Fr1Mu4mxP.ttf)format('truetype');}</style><script name="www-roboto" nonce="Cu4gXpY265CW6o4KKCfReQ">if (document.fonts && document.fonts.load) {document.fonts.l

In [261]:
browser.title

'Programación con Python'

In [262]:
# Imprimimos la URL del iframe
print(browser.current_url)

https://www.youtube.com/embed/rfscVS0vtbw


In [263]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

try:
    html = urlopen("https://developer.mozilla.org/en-US/docs/Web/HTML/Element/iframe")
except HTTPError as e:
    print(e)
except URLError:
    print("Servidor caído o dominio incorrecto.")
else:
    res = BeautifulSoup(html.read(), "html5lib")
    tag = res.find("iframe")
    uriIframe = tag['src']
    print(uriIframe) # la URl del iframe lista para scraping

https://interactive-examples.mdn.mozilla.net/pages/tabbed/iframe.html


### Gestionando las llamadas Ajax

    Comencemos definiendo ¿Qué es AJAX? Su nombre viene de Asynchronous JavaScript And XML.  
    AJAX no es un lenguaje de programación, sólo utiliza una combinación de:

    •	Un objeto XMLHttpRequest integrado del explorador (para solicitar datos de un servidor web)
    •	JavaScript y HTML DOM (para mostrar o utilizar los datos)
    
    AJAX permite que las páginas web se actualicen de forma asincrónica intercambiando datos con un servidor 
    web en segundo plano. Esto significa que es posible actualizar partes de una página web, sin volver a cargar 
    toda la página.
    
    Con JavaScript y técnicas AJAX, las páginas pueden cargar contenido dinámicamente realizando solicitudes 
    HTTP internas. Podemos usar Selenium para extraer contenido después de hacer llamadas AJAX.
    
    
![image.png](attachment:image.png)


In [264]:
from selenium import webdriver
import time
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/xml/ajax_intro.asp")

# Localizamos el botón
boton = browser.find_elements_by_tag_name("button")[0] # trae todos los tags button

# Simulamos su pulsación y esperamos un tiempo a que se complete la solicitud Ajax
boton.click()
time.sleep(2)

# Recuperamos el contenido del bloque modificado
bloque = browser.find_element_by_id('demo')
print(bloque.text)
browser.close()

AJAX
AJAX is not a programming language.
AJAX is a technique for accessing web servers from a web page.
AJAX stands for Asynchronous JavaScript And XML.


#### Código AJAX del botón Change Content

In [None]:
<!DOCTYPE html>
<html>
<body>

<div id="demo">
<h1>The XMLHttpRequest Object</h1>
<button type="button" onclick="loadDoc()">Change Content</button>
</div>

<script>
function loadDoc() {
  var xhttp = new XMLHttpRequest();
  xhttp.onreadystatechange = function() {
    if (this.readyState == 4 && this.status == 200) {
      document.getElementById("demo").innerHTML =
      this.responseText;
    }
  };
  xhttp.open("GET", "ajax_info.txt", true);
  xhttp.send();
}
</script>

</body>
</html>


In [136]:
import platform
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/xml/ajax_intro.asp")

# Localizamos el botón
boton = browser.find_elements_by_tag_name("button")[0]

# Simulamos su pulsación y esperamos un tiempo a que se complete la solicitud Ajax
boton.click()

# Esperamos a que se complete la solicitud Ajax y exista el <h1>
try:
    WebDriverWait(browser, 20).until(EC.text_to_be_present_in_element((By.TAG_NAME, "h1"), "AJAX"))
    bloque = browser.find_element_by_id('demo')
    print(bloque.text)
except:
    pass
browser.close()

Let AJAX change this text
Change Content


En la función WebDriverWait() 
    Se indica un tiempo máximo de espera de 10 segundos.
    El método until() permite bloquear el programa hasta que se cumpla la condición especificada.
    EC.text_to_be_present_in_element() se especifica la condición de que una etiqueta h1 contenga el texto "AJAX". 

### Manejando Cookies

In [265]:
from selenium import webdriver
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")

print(browser.get_cookies())

[{'domain': '.python.org', 'expires': 'vi., 21 oct. 2022 07:29:25 GMT', 'expiry': 1666337365, 'httponly': False, 'name': '__utmz', 'path': '/', 'secure': False, 'value': '32101439.1650569365.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)'}, {'domain': '.python.org', 'httponly': False, 'name': '__utmc', 'path': '/', 'secure': False, 'value': '32101439'}, {'domain': '.python.org', 'expires': 'ju., 21 abr. 2022 19:59:25 GMT', 'expiry': 1650571165, 'httponly': False, 'name': '__utmb', 'path': '/', 'secure': False, 'value': '32101439.1.10.1650569365'}, {'domain': '.python.org', 'expires': 'sá., 20 abr. 2024 19:29:25 GMT', 'expiry': 1713641365, 'httponly': False, 'name': '__utma', 'path': '/', 'secure': False, 'value': '32101439.71456472.1650569365.1650569365.1650569365.1'}, {'domain': '.python.org', 'expires': 'ju., 21 abr. 2022 19:39:25 GMT', 'expiry': 1650569965, 'httponly': False, 'name': '__utmt', 'path': '/', 'secure': False, 'value': '1'}]


In [266]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/")

print(browser.get_cookies())

[{'domain': '.w3schools.com', 'expires': 'ju., 21 abr. 2022 19:30:38 GMT', 'expiry': 1650569438, 'httponly': False, 'name': '_gat', 'path': '/', 'secure': False, 'value': '1'}, {'domain': '.w3schools.com', 'expires': 'vi., 22 abr. 2022 19:29:38 GMT', 'expiry': 1650655778, 'httponly': False, 'name': '_gid', 'path': '/', 'secure': False, 'value': 'GA1.2.1868061893.1650569378'}, {'domain': '.w3schools.com', 'expires': 'sá., 20 abr. 2024 19:29:38 GMT', 'expiry': 1713641378, 'httponly': False, 'name': '_ga', 'path': '/', 'secure': False, 'value': 'GA1.2.1803845278.1650569378'}]


#### Borrar las cookies

In [267]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")
browser.delete_all_cookies()

In [268]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/")
browser.delete_all_cookies()

#    Web Crawling 
    
El Crawling es todo el recorrido que realiza una araña o crawler, cualquier bot de indexación enviado por los motores     de búsqueda, con el fin de detectar, leer y analizar todo el contenido y el código que compone a una página web. 
    
Web crawling también lo podríamos definir como una forma de obtener un mapa. Para ello, necesitamos ir al sitio, evaluar y registrar todos los aspectos necesario. Los encargados de realizar este rastreo son los bots, y serán los  encargados de la creación de ese mapa. 

Su forma de trabajar consiste en escanear, indexar y registrar todos los sitios webs, incluidos páginas y subpáginas.  
    
Algunos rastreadores utilizados por grandes compañías son:
    
        •	Googlebot utilizado por Google 
        •	Bingbot utilizado por Bing de Microsoft 
        •	Slurp Bot utilizado por Yahoo 

## Rastreadores web con Scrapy

Scrapy es un framework de Python que simplifica el rastreo web. Entre sus características se encuentran:
    
        •	Permite descargar páginas web, procesarlas y guardarlas en archivos y bases de datos.
        •	Ofrece varias formas de rapar una página web. Su curva de aprendizaje es un poco 
            mayor que la de BeatifulSoup.
        •	Es muy rápido al rastrear URLs ya que utiliza técnicas asíncronas.
        
Scrapy proporciona un shell de rastreo web llamado **scrapy shell**.  Es útil para probar suposiciones sobre el comportamiento de un sitio.  


### Paso a Paso

1.	Instalar Scrapy con el comando:
    
            conda install -c conda-forge scrapy 
            
    o bien podemos usar la herramienta pip desde la terminal
    de Anaconda: 
        
            pip install scrapy
        
        
2.	Una vez instalado Scrapy, desde la terminal de Jupyter, por ejemplo, ejecutamos: 

            scrapy shell  
            
    Vamos a rastrear la página web de comercio electrónico de tabletas más vendidas de Amazon:

       “https://www.amazon.es/gp/bestsellers/computers/938010031”

3.	Se ejecuta el rastreador con el comando fetch(). Un rastreador recorre una página web descargando su texto y metadatos: 

                fetch("https://www.amazon.es/gp/bestsellers/computers/938010031/")


4.	El rastreador devuelve una respuesta que se puede ver mediante el comando 

            view(response) 
        
    De inmediato se abre la página con el navegador predeterminado.  

![image.png](attachment:image.png)


3.	Para ver en la consola el contenido HTML sin formato, se utiliza: 

            print(response.text)
            
4.	Abrimos la página web y podemos inspeccionar los elementos que nos interesan. Para este ejemplo 
recuperaremos: el nombre y precio de la tableta
        
5. Podemos comprobar que los nombres de las tabletas se muestran dentro de elementos: <div class="p13n-sc-truncate">

        <div class=" p13n-sc-truncated" aria-hidden="true" data-rows="4">2021 Apple iPad - Gris espacial</div>

    y el precio en elementos: 
    
        <span class="p13n-sc-price">
    
6. Podemos extraer los datos de la página usando los atributos de los elementos o usando selectores CSS. 
    
    * El método **extract_first()** recupera el primer elemento que cumple con el selector.
      
    * Para obtener todos los elementos, simplemente debemos usar el método **extract()**.  
    

NOTA: En ocasiones es necesario realizar una limpieza de los datos extraidos (eliminar los saltos de línea y espacios en blanco laterales). 

#### Búsqueda de etiquetas y atributos con CSS (extracción de datos)

In [None]:
response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract_first()
response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract()
response.css(".p13n-sc-price::text").extract()
response.css(".a-icon-alt::text").extract()

El método **css()** soporta el uso de la seudoclase **::attr()**. Con esta seudoclase podremos 
especificar un atributo del cual queremos recuperar el valor. Por ejemplo, cuando hacemos búsqueda 
de enlaces podemos utilizar el atributo href:

In [None]:
response.css("img::attr(alt)").extract()
response.css("a::attr(href)").extract()

#### Búsqueda de etiquetas y atributos con XPath (extracción de datos)

**XPath** es un lenguaje de consulta para seleccionar nodos en un documento XML. Podemos navegar por un documento XML utilizando XPath, de hecho, Scrapy usa Xpath para navegar por los elementos de documentos HTML. 

Consultaremos los nombres, precios y valoración de tabletas usando expresiones XPath. Las expresiones XPath 
no permiten filtrar por contenido parcial en un atributo. 

In [None]:
# XPath

response.xpath("//div[@class='_cDEzb_p13n-sc-css-line-clamp-3_g3dy1']/text()").extract()
response.xpath("//span[@class='p13n-sc-price']/text()").extract()
response.xpath("//span[@class='a-icon-alt']/text()").extract()

7. Para salir de esta consola interactiva podemos ejecutar el comando: **exit()**

### Creación de un proyecto Scrapy

Con las técnicas vistas con Scrapy, podemos rastrear las páginas de compra de tabletas y almacenarlas en un archivo 
en formato CSV. Para ello, vamos a crear una proyecto araña o crawler personalizado con Scrapy en el que se 
almacenarán los productos.

**Pasos:**

1. Abrir la consola y ubicarnos en el directorio **cd C:\Users\msierra\Desktop\ScrapApps**
2. Creamos el proyecto amazontabletas  **scrapy startproject amazontabletas**.  Se crea la estrctura del proyecto amazontabletas
3. Crear una araña: Nos ubicamos en el directorio spiders del proyecto
    **cd C:\Users\msierra\Desktop\ScrapApps\amazontabletas\amazontabletas\spiders**
4. Ejecutar el comando:
    **scrapy genspider amazon_tabletas "https://www.amazon.es/gp/bestsellers/computers/938010031/"**
5. Modificamos el archivo **amazon_tabletas.py** (spiders)

In [None]:
class AmazonTabletasSpider(scrapy.Spider):
    name = 'amazon_tabletas'
    allowed_domains = ['amazon.es']
    start_urls = ['https://www.amazon.es/gp/bestsellers/computers/938010031/']

Se define una clase **AmazonTabletasSpider(scrapy.Spider)** con atributos:
    
    * name: será el nombre de la araña. Cada nombre debe ser único,
        ya que se utilizarán para ejecutar la araña con el comando 
        scrapy crawl name.
    * allow_domains (opcional): es una lista de dominios que pueden
        rastrearse. No se rastrearán las solicitudes de URLs que no estén en
        esta lista. Aquí sólo se debe incluir el dominio del sitio web, no la
        URL completa.
    * start_urls: contiene las URLs por donde comenzará a rastrear la
        araña.
       
6.	Vamos a incluir en el método **parse()** del archivo **amazon_tabletas.py**, el código necesario para extraer los nombres y precios de tabletas:

    * El método **parse(self, response)** será invocado siempre que una URL se rastree correctamente. El parámetro response es el valor devuelto por el resultado del rastreo (el mismo tipo de objeto que obtuvimos en Scrapy Shell).


In [None]:
    def parse(self, response):
        print("procesando:", response.url)

        # Extraemos los datos usando selectores css
        nombres = response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract()
        precios = response.xpath("//span[@class='p13n-sc-price']/text()").extract()

        # Normalizamos los datos

        for item in zip(nombres, precios):
            scraped_info = {
                'pagina': response.url,
                'tableta': item[0],
                'precio': item[1]
            }
            yield scraped_info

Con **yield** el método parse() retorna un generador que va sirviendo los datos en forma de diccionario.

7.	Ejecutamos la araña desde el directorio del proyecto: C:\Users\msierra\Desktop\ScrapApps\amazontabletas>     
        scrapy crawl amazon_tabletas
        
8. La araña creada sólo extrae la información de la primera página.  Para buscar la información 
en todas las páginas, debemos busca la opción "siguiente" al final de la pagina: 

        <ul class="a-pagination"> 

    donde podemos encontrar las etiquetas "a" con los enlaces posteriores. El último enlace se corresponde 
    con el de la página siguiente y está dentro de un elemento:

        <li class="a-last">

    Tendremos que obtener la última etiqueta "a" de cada página.  Vamos a modificar el fichero **amazon_tabletas.py** 
    para hacer un seguimientos de los enlaces siguientes.  El siguiente código agrega esta funcionalidad

In [None]:
NEXT_PAGE_SELECTOR = 'ul.a-pagination > li.a-last > a::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

9. Exportar la salida a un fichero **.csv**

    Una alternativa para analizar los datos es exportarlos a un formato como CSV o JSON.  Para guardar 
    los datos en un fichero CSV, debemos abrir el archivo **settings.py** e insertar las siguientes líneas:

        FEED_FORMAT="csv"
        FEED_URI="amazontabletas.csv"
        
10. Abrimos con Pandas el fichero **amazontabletas.csv**

### Ejercicios para Ejecutar desde Scrapy Shell

Desde la terminal ejecutar: scrapy shell

In [None]:
# Ejemplo de Mil Anuncios

fetch("https://www.milanuncios.com/motos-de-segunda-mano/?stc=cs-vibbo-home-segundamano")
fetch("https://www.milanuncios.com/anuncios/?s=motos%20segunda%20mano&fromSearch=1&fromSuggester=1&suggest")

DEBUG: Crawled (403) 

response.xpath('//a[@class="ma-AdCard-titleLink"]/text()').extract()
response.css(".ma-AdCardV2-description::text").extract() # nombres
response.xpath('//p[@class="ma-AdCardV2-description"]/text()').extract()
response.xpath('//span[@class="ma-AdTag-label"]/text()').extract()
response.xpath('//span[@class="ma-AdPrice-value ma-AdPrice-value--default ma-AdPrice-value--heading--m"]/text()').extract()

exit()

403 suele ser una respuesta anti-bot (también 407, 408, 429, 502, 503, 504, 999). Algunos sitios web tienen diferentes protecciones anti-bot para diferentes páginas. 

In [None]:
#  Ejemplo de libros de Amazon

fetch('https://www.amazon.es/gp/bestsellers/books')

response.css("img::attr(alt)").extract()   # nombre
response.xpath('//a[@class="a-link-normal"]/span/div/text()').extract()
response.css("._cDEzb_p13n-sc-css-line-clamp-2_EWgCb::text").extract() 
response.css(".p13n-sc-price::text").extract() # precio
response.css(".a-icon-alt::text").extract()    #valoracion
response.xpath('//span[@class="a-size-small a-color-secondary a-text-normal"]/text()').extract()
response.xpath('//span[@class="a-size-small a-color-base"]/div/text()').extract()


### Ejercicio extraer libros desde Amazon

In [5]:
PATH = r"C:\Users\msierra\Desktop\ScrapApps\amazontabletas\amazontabletas\spiders\amazontabletas.csv"

import pandas as pd

df = pd.read_csv(PATH, usecols=[1,2], encoding = "utf-8")
df

Unnamed: 0,tableta,precio
0,"realme Pad, WiFi Tablet, 2K Display 10,4 Pulga...","165,54 €"
1,"Samsung Galaxy Tab A8 - Tablet de 10.5”, 64GB,...","210,57 €"
2,"2021 Apple iPad (de 10,2 pulgadas con Wi-Fi, 6...","351,82 €"
3,"Samsung - Tablet Galaxy Tab A7 Lite de 8,7 Pul...","122,31 €"
4,"Samsung Galaxy Tab A8 - Tablet de 10.5”, 64GB,...","214,86 €"
...,...,...
94,"Samsung Galaxy Tab A8 LTE - Tablet de 10.5”, 3...","207,71 €"
95,Tablet 10.1'' Pulgadas Android 10 Tableta 4GB+...,"101,99 €"
96,"2022 Apple iPad Air (Wi-Fi, 256 GB) - Gris Esp...","849,00 €"
97,"SAMSUNG Galaxy Tab S7 FE - Tablet de 12.4"" (Wi...","424,19 €"


In [None]:
### Ejercicio extraer libros desde Amazon

1. Abrir la consola y ubicarnos en el directorio cd C:\Users\msierra\Desktop\ScrapApps
2. Creamos el proyecto amazonlibros  scrapy startproject amazonlibros    
3. Crear una araña: cd C:\Users\msierra\Desktop\ScrapApps\amazonlibros\amazonlibros\spiders
        
        scrapy genspider amazon_libros "https://www.amazon.es/gp/bestsellers/books"
        
4. Modificamos el archivo amazon_libros.py (spiders)

import scrapy


class AmazonLibrosSpider(scrapy.Spider):
    name = 'amazon_libros'
    allowed_domains = ['amazon.es']
    start_urls = ['https://www.amazon.es/gp/bestsellers/books']

    def parse(self, response):
        print("procesando:", response.url)

        # Extraemos los datos usando selectores css

        nombres = response.xpath('//a[@class="a-link-normal"]/span/div/text()').extract()
        autores = response.xpath('//span[@class="a-size-small a-color-base"]/div/text()').extract()
        precios = response.css(".p13n-sc-price::text").extract()
        valoracion = response.css(".a-icon-alt::text").extract()

        # Normalizamos los datos

        for item in zip(nombres, autores, precios, valoracion):
            scraped_info = {
                'pagina': response.url,
                'libros': item[0],
                'autores': item[1],
                'precio': item[2],
                'valoracion':item[3]
            }
            print(scraped_info)
            yield scraped_info

        NEXT_PAGE_SELECTOR = 'ul.a-pagination > li.a-last > a::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

            
Insertar las lineas en settings.py

FEED_FORMAT="csv"
FEED_URI="amazonlibros.csv"

5. Ejecutamos la araña desde la terminal scrapy crawl amazon_libros

### Ejecutar la araña desde un programa

In [105]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
import os

os.chdir("C:\\Users\\msierra\\Desktop\\ScrapApps\\amazonlibros\\amazonlibros\\spiders\\")


process = CrawlerProcess(get_project_settings())

process.crawl('amazon_libros')
process.start() # the script will block here until the crawling is finished

2022-04-25 22:58:36 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: amazonlibros)
2022-04-25 22:58:36 [scrapy.utils.log] INFO: Versions: lxml 4.8.0.0, libxml2 2.9.12, cssselect 1.1.0, parsel 1.6.0, w3lib 1.21.0, Twisted 22.2.0, Python 3.8.12 (default, Oct 12 2021, 03:01:40) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 21.0.0 (OpenSSL 1.1.1m  14 Dec 2021), cryptography 3.4.8, Platform Windows-10-10.0.19041-SP0
2022-04-25 22:58:36 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'amazonlibros',
 'NEWSPIDER_MODULE': 'amazonlibros.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['amazonlibros.spiders']}
2022-04-25 22:58:36 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2022-04-25 22:58:36 [scrapy.extensions.telnet] INFO: Telnet Password: 4f267efaa0c8884c
  exporter = cls(crawler)

2022-04-25 22:58:36 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Destroza este diario. Ahora a todo color (Libros Singulares)', 'autores': 'Keri Smith', 'precio': '10,00\xa0€', 'valoracion': '4,5 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'La cuenta atrás para el verano: La vida son recuerdos y los míos tienen nombres de persona (Novela)', 'autores': 'La Vecina Rubia', 'precio': '17,00\xa0€', 'valoracion': '4,8 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Antes de diciembre (Wattpad)', 'autores': 'Joana Marcús', 'precio': '14,05\xa0€', 'valoracion': '4,7 de 5 estrellas'}
2022-

2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Gracias, vida: ¿Y qué hacemos ahora? Seguir bailando (Ilustración)', 'autores': 'Lucía Benavente', 'precio': '9,97\xa0€', 'valoracion': '4,3 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Los cuatro acuerdos: Un libro de sabiduría tolteca (Crecimiento personal)', 'autores': 'Miguel Ruiz', 'precio': '3,26\xa0€', 'valoracion': '4,2 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'MAMA Te Queremos hasta el infinito y más allá: Regalos Dia del MADRE Originales , Perfecto para tomar notas, Escribir Pensamientos, Recetas , Di

procesando: https://www.amazon.es/gp/bestsellers/books
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': '101 truquitos para speak English de una vez por todas: El libro definitivo para aprender inglés (Random Cómics)', 'autores': 'María Speaks English', 'precio': '16,10\xa0€', 'valoracion': '4,5 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Cómo hacer que te pasen cosas buenas: Entiende tu cerebro, gestiona tus emociones, mejora tu vida (Fuera de colección)', 'autores': 'Marian Rojas Estapé', 'precio': '18,90\xa0€', 'valoracion': '4,5 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Cuando el corazón llora (HarperCollins)', 'autores': 'Tamara Gorro', 'precio': '17,95\xa0€', 'valoracion': '4,5 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books', 'libros': 'Roma soy yo: La verdadera historia de Julio César (Histórica)', 'autores': 'Santiago Posteguillo', 'precio': '19,70\xa0€

2022-04-25 22:58:38 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2> (referer: https://www.amazon.es/gp/bestsellers/books)
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'OJALÁ (ESPASAesPOESÍA)', 'autores': 'Defreds', 'precio': '14,15\xa0€', 'valoracion': '4,8 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'Heartstopper 2. Mi persona favorita (Ficción)', 'autores': 'Alice Oseman', 'precio': '14,93\xa0€', 'valoracion': '4,8 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bes

2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'Un cuento perfecto (Best Seller)', 'autores': 'Elísabet Benavent', 'precio': '6,45\xa0€', 'valoracion': '4,5 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'Furia (Serie Crave 2) (Planeta Internacional)', 'autores': 'Tracy Wolff', 'precio': '15,57\xa0€', 'valoracion': '4,7 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'La ratonera (Austral Educación)', '

2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'El Día que mi Hija me llamó Zorra: Claves para educar en la Adolescencia (Padres y educadores)', 'autores': 'Sara Desirée Ruiz', 'precio': '19,00\xa0€', 'valoracion': '4,6 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2>
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'Aprender a leer en la Escuela de Monstruos 2 - Una liada de mermelada: En letra MAYÚSCULA para aprender a leer (Libros para niños a partir de 5 años)', 'autores': 'Sally Rippin', 'precio': '6,60\xa0€', 'valoracion': '4,6 de 5 estrellas'}
2022-04-25 22:58:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.es/gp/bestsellers

procesando: https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'OJALÁ (ESPASAesPOESÍA)', 'autores': 'Defreds', 'precio': '14,15\xa0€', 'valoracion': '4,8 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'Heartstopper 2. Mi persona favorita (Ficción)', 'autores': 'Alice Oseman', 'precio': '14,93\xa0€', 'valoracion': '4,8 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'MANUAL DE LETTERING PARA NIÑOS Y NIÑAS: Aprende, crea y diviértete', 'autores': 'El Club del Lettering', 'precio': '13,25\xa0€', 'valoracion': '4,6 de 5 estrellas'}
{'pagina': 'https://www.amazon.es/gp/bestsellers/books/ref=zg_bs_pg_2?ie=UTF8&pg=2', 'libros': 'No quieren que lo sepas (NO FICCIÓN)', 'autores': 'Jesús Cintora', 'precio': '18,90\xa0€', 'valoracion': '4,4 de 5 estrellas'}

In [8]:
PATH = r"C:\Users\msierra\Desktop\ScrapApps\amazonlibros\amazonlibros\spiders\amazonlibros.csv"

import pandas as pd

df = pd.read_csv(PATH, usecols=[1,2,3,4], encoding = "utf-8")
df

Unnamed: 0,libros,autores,precio,valoracion
0,101 truquitos para speak English de una vez po...,María Speaks English,"16,10 €","4,5 de 5 estrellas"
1,Cómo hacer que te pasen cosas buenas: Entiende...,Marian Rojas Estapé,"18,90 €","4,5 de 5 estrellas"
2,Cuando el corazón llora (HarperCollins),Tamara Gorro,"17,95 €","4,5 de 5 estrellas"
3,Roma soy yo: La verdadera historia de Julio Cé...,Santiago Posteguillo,"19,70 €","4,5 de 5 estrellas"
4,Encuentra tu persona vitamina (F. COLECCION),Marian Rojas Estapé,"18,90 €","4,6 de 5 estrellas"
...,...,...,...,...
89,El Día que mi Hija me llamó Zorra: Claves para...,Sara Desirée Ruiz,"19,00 €","4,6 de 5 estrellas"
90,Aprender a leer en la Escuela de Monstruos 2 -...,Sally Rippin,"6,60 €","4,6 de 5 estrellas"
91,El príncipe de la niebla (Biblioteca Carlos Ru...,Carlos Ruiz Zafón,"5,60 €","4,7 de 5 estrellas"
92,El día que dejó de nevar en Alaska (Titania fr...,ALICE KELLEN,"15,20 €","5,0 de 5 estrellas"


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94 entries, 0 to 93
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   libros      94 non-null     object
 1   autores     94 non-null     object
 2   precio      94 non-null     object
 3   valoracion  94 non-null     object
dtypes: object(4)
memory usage: 3.1+ KB


In [11]:
df.groupby(["autores"]).size().sort_values(ascending=False)

autores
Alice Oseman                    4
Alice Kellen                    3
Julia Quinn                     3
Marian Rojas Estapé             2
Tracy Wolff                     2
                               ..
Kolderiu                        1
Las aventuras de Dani y Evan    1
Letizia Liza                    1
Agatha Christie                 1
Ángel Martín                    1
Length: 78, dtype: int64

In [12]:
df.groupby(["valoracion"]).size().sort_values(ascending=False)

valoracion
4,6 de 5 estrellas    23
4,7 de 5 estrellas    18
4,5 de 5 estrellas    15
4,8 de 5 estrellas     9
4,4 de 5 estrellas     8
4,3 de 5 estrellas     7
5,0 de 5 estrellas     4
4,1 de 5 estrellas     3
4,9 de 5 estrellas     3
4,0 de 5 estrellas     2
3,6 de 5 estrellas     1
4,2 de 5 estrellas     1
dtype: int64

In [13]:
df.sort_values(by="libros", ascending=False)

Unnamed: 0,libros,autores,precio,valoracion
57,Últimos días en Berlín: Finalista Premio Plane...,Paloma Sánchez-Garnica,"19,00 €","4,4 de 5 estrellas"
52,¿Puedo mirar tu pañal? (El ratón y sus amigos),Guido van Genechten,"12,29 €","4,8 de 5 estrellas"
35,YoSoyPlex y la pirámide maldita (Las Aventuras...,YoSoyPlex,"10,92 €","4,7 de 5 estrellas"
7,Violeta: 1001 (Éxitos),Isabel Allende,"18,75 €","4,7 de 5 estrellas"
10,Verdades a la cara (BIO),Pablo Iglesias,"18,05 €","4,0 de 5 estrellas"
...,...,...,...,...
73,Anhelo (Serie Crave 1): Serie Crave (Planeta I...,Tracy Wolff,"17,57 €","4,5 de 5 estrellas"
72,Amanda Black 1 - Una herencia peligrosa,Juan Gómez-Jurado,"13,00 €","4,7 de 5 estrellas"
11,Alcanza el máximo nivel en FIFA con Kolderiu (...,Kolderiu,"20,80 €","4,7 de 5 estrellas"
45,Academia de Madres: El origen (4You2),Nachter,"17,00 €","4,9 de 5 estrellas"
