In [1]:
# *** The Beautiful Soup Library ***

# Ahora estamos listos para comenzar a trabajar con páginas HTML usando Python. Recuerde las siguientes líneas de código:

import requests
url = 'https://en.wikipedia.org/w/index.php' + \
 '?title=List_of_Game_of_Thrones_episodes&oldid=802553687'
r = requests.get(url)
html_contents = r.text

# ¿Cómo nos ocupamos del HTML contenido en html_contents? 
# Para analizar y abordar correctamente esta "soup", traeremos otra biblioteca, llamada "Beautiful Soup".

In [2]:
# Beautiful Soup intenta organizar la complejidad: ayuda a analizar, estructurar y organizar la web a menudo 
# muy desordenada corrigiendo HTML incorrecto y presentándonos una estructura de Python fácil de trabajar.

In [3]:
# Instalar Beautiful Soup es fácil con pip y observe el "4" en el nombre del paquete:

# pip install -U beautifulsoup4

In [4]:
conda install beautifulsoup4

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


In [5]:
# El uso de Beautiful Soup comienza con la creación de un objeto BeautifulSoup. 
# Si ya tiene una página HTML contenida en una cadena (como la tenemos), esto es sencillo. 
# No olvide agregar la nueva línea de importación:

import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/w/index.php' + \
 '?title=List_of_Game_of_Thrones_episodes&oldid=802553687'
r = requests.get(url)
html_contents = r.text
html_soup = BeautifulSoup(html_contents)

In [7]:
# Uh-oh, ¿qué está pasando aquí? La propia biblioteca Beautiful Soup depende de un analizador HTML para realizar 
# la mayor parte del trabajo de análisis masivo. En Python, existen varios analizadores para hacerlo:

# • “Html.parser”: un analizador de Python incorporado que es decente y no requiere instalación adicional.
# • “Lxml”: que es muy rápido pero requiere una instalación adicional.
# • “Html5lib”: que tiene como objetivo analizar la página web exactamente de la misma manera que lo hace un navegador 
#    web, pero es un poco más lento.

# Dado que existen pequeñas diferencias entre estos analizadores, Beautiful Soup le advierte que si no proporciona 
# uno explícitamente, esto podría hacer que su código se comporte ligeramente diferente al ejecutar el mismo script en 
# diferentes máquinas. Para resolver esto, simplemente especificamos un analizador nosotros mismos; aquí nos quedaremos 
# con el analizador predeterminado de Python:

html_soup = BeautifulSoup(html_contents, 'html.parser')

In [8]:
# La tarea principal de Beautiful Soup es tomar el contenido HTML y transformarlo en una representación basada en árboles. 
# Una vez que haya creado un objeto BeautifulSoup, hay dos métodos que utilizará para obtener datos de la página:

# • find(name, attrs, recursive, string, **keywords);
# • find_all(name, attrs, recursive, string, limit, **keywords).

# De hecho, ambos métodos se ven muy similares, con la excepción de que find_all toma un argumento de límite adicional. 
# Para probar estos métodos, agregue las siguientes líneas a su script y ejecútelo:

print(html_soup.find('h1'))
print(html_soup.find('', {'id': 'p-logo'}))
for found in html_soup.find_all(['h1', 'h2']):
 print(found)

<h1 class="firstHeading" id="firstHeading">List of <i>Game of Thrones</i> episodes</h1>
None
<h1 class="firstHeading" id="firstHeading">List of <i>Game of Thrones</i> episodes</h1>
<h2 id="mw-toc-heading">Contents</h2>
<h2><span class="mw-headline" id="Series_overview">Series overview</span></h2>
<h2><span class="mw-headline" id="Episodes">Episodes</span></h2>
<h2><span class="mw-headline" id="Home_media_releases">Home media releases</span></h2>
<h2><span class="mw-headline" id="Ratings">Ratings</span></h2>
<h2><span class="mw-headline" id="References">References</span></h2>
<h2><span class="mw-headline" id="External_links">External links</span></h2>
<h2>Navigation menu</h2>


In [9]:
# La idea general detrás de estos dos métodos debería ser relativamente clara: se utilizan para encontrar elementos dentro 
# del árbol HTML. Analicemos los argumentos de estos dos métodos paso a paso:

# • El argumento de nombre define los nombres de etiqueta que desea "encontrar" en la página. Puede pasar una cadena o una 
#   lista de etiquetas. Dejar este argumento como una cadena vacía simplemente selecciona todos los elementos.

# • El argumento attrs toma un diccionario de atributos de Python y coincide con elementos HTML que coinciden con esos atributos.

# • El argumento recursive es un booleano y gobierna la profundidad de la búsqueda. Si se establece en Verdadero, el valor 
#   predeterminado, los métodos find y find_all buscarán en los niños, los niños de los niños, etc., en busca de elementos que 
#   coincidan con su consulta. Si es Falso, solo buscará elementos secundarios directos.

# • El argumento de string se utiliza para realizar coincidencias en función del contenido de texto de los elementosstring.

# • El argumento limit solo se usa en el método find_all y se puede usar para limitar el número de elementos que se recuperan. 
#   Tenga en cuenta que find es funcionalmente equivalente a llamar a find_all con el límite establecido en 1, con la excepción
#   de que el primero devuelve el elemento recuperado directamente, y que el segundo siempre devolverá una lista de elementos, 
#   incluso si solo contiene un solo elemento. También es importante saber que, cuando find_all no puede encontrar nada, 
#   devuelve una lista vacía, mientras que si find no puede encontrar nada, devuelve None.

# • **keywords son un caso especial. Básicamente, esta parte de la firma del método indica que puede agregar tantos argumentos 
#   con nombre adicionales como desee, que luego simplemente se usarán como filtros de atributos. Escribir "find (id = 'myid')" 
#   es, por tanto, lo mismo que "find (attrs = {'id': 'myid'})". Si define tanto el argumento attrs como las palabras clave 
#   adicionales, todos estos se usarán juntos como filtros. Esta funcionalidad se ofrece principalmente como una conveniencia 
#   para escribir código más fácil de leer.

In [10]:
# Tanto find como find_all devuelven objetos Tag . Con estos, hay una serie de cosas interesantes que puede hacer:

# • Acceda al atributo de nombre para recuperar el nombre de la etiqueta.

# • Acceda al atributo de contenido para obtener una lista de Python que contenga los elementos secundarios de la etiqueta 
#   (sus etiquetas descendientes directas) como una lista.

# • El atributo children hace lo mismo pero proporciona un iterador en su lugar; el atributo descendientes también devuelve un 
#   iterador, que ahora incluye todos los descendientes de la etiqueta de forma recursiva. Estos atributos se utilizan cuando 
#   llama a find y find_all .

# • Del mismo modo, también se puede ir “hacia arriba” el árbol HTML utilizando los padres y los padres atributos. Para ir 
#   hacia los lados (es decir, buscar elementos siguientes y anteriores en el mismo nivel en la jerarquía), se pueden usar 
#   next_sibling , previous_sibling y next_siblings, y previous_siblings .

# • La conversión del objeto Etiqueta en una cadena muestra tanto la etiqueta como su contenido HTML como una cadena. Esto es 
#   lo que sucede si llama a imprimir el objeto Tag , por ejemplo, o envuelve dicho objeto en la función str .

# • Acceda a los atributos del elemento a través del atributo attrs del objeto Etiqueta . Por conveniencia, también puede 
#   utilizar directamente el objeto Tag como diccionario.

# • Utilice el atributo de texto para obtener el contenido del objeto Etiqueta como texto sin cifrar (sin etiquetas HTML).

# • Alternativamente, también puede usar el método get_text , al que se le puede dar un argumento booleano de tipo strip para 
#   que get_text (strip = True) sea ​​equivalente a text.strip () . También es posible especificar una cadena que se utilizará 
#   para unir los fragmentos de texto incluidos en el elemento, por ejemplo, get_text ('-') .

# • Si una etiqueta solo tiene un hijo, y ese hijo en sí mismo es simplemente texto, también puede usar el atributo de cadena 
#   para obtener el contenido textual. Sin embargo, en caso de que una etiqueta contenga otras etiquetas HTML anidadas, la 
#   cadena devolverá None, mientras que el texto recuperará todo el texto de forma recursiva.

# • Finalmente, no todas las búsquedas encuentran y encuentran : todas las búsquedas deben comenzar desde sus objetos 
#   BeautifulSoup originales . Cada objeto de etiqueta en sí mismo se puede utilizar como una nueva raíz desde la que se 
#   pueden iniciar nuevas búsquedas.

In [11]:
# Hemos tratado con mucha teoría. Presentemos estos conceptos a través de un código de ejemplo:

import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/w/index.php' + \
 '?title=List_of_Game_of_Thrones_episodes&oldid=802553687'
r = requests.get(url)
html_contents = r.text
html_soup = BeautifulSoup(html_contents, 'html.parser')
# Encuentra la primera etiqueta h1
first_h1 = html_soup.find('h1')
print(first_h1.name) # h1
print(first_h1.contents) # ['List of ', [...], ' episodes']
print(str(first_h1))
# Imprime: <h1 class="firstHeading" id="firstHeading" lang="en">List of
# <i>Game of Thrones</i> episodes</h1>
print(first_h1.text) # Lista de episodios de Game of Thrones
print(first_h1.get_text()) # Hace lo mismo
print(first_h1.attrs)
# Imprime: {'id': 'firstHeading', 'class': ['firstHeading'], 'lang': 'en'}
print(first_h1.attrs['id']) # firstHeading
print(first_h1['id']) # Hace lo mismo
print(first_h1.get('id')) # Hace lo mismo
print('------------ CITATIONS ------------')
# Encuentra los primeros cinco elementos de cita con una clase de cita
cites = html_soup.find_all('cite', class_='citation', limit=5)
for citation in cites:
 print(citation.get_text())
 # Dentro de este elemento cite, busque la primera etiqueta a
 link = citation.find('a')
# ... y muestra su URL
 print(link.get('href'))
 print()

h1
['List of ', <i>Game of Thrones</i>, ' episodes']
<h1 class="firstHeading" id="firstHeading">List of <i>Game of Thrones</i> episodes</h1>
List of Game of Thrones episodes
List of Game of Thrones episodes
{'id': 'firstHeading', 'class': ['firstHeading']}
firstHeading
firstHeading
firstHeading
------------ CITATIONS ------------
Fowler, Matt (April 8, 2011). "Game of Thrones: "Winter is Coming" Review". IGN. Archived from the original on August 17, 2012. Retrieved September 22, 2016.
https://web.archive.org/web/20120817073932/http://tv.ign.com/articles/116/1160215p1.html

Fleming, Michael (January 16, 2007). "HBO turns Fire into fantasy series". Variety. Archived from the original on May 16, 2012. Retrieved September 3, 2016.
https://web.archive.org/web/20120516224747/http://www.variety.com/article/VR1117957532?refCatId=14

"Game of Thrones". Emmys.com. Retrieved September 17, 2016.
http://www.emmys.com/shows/game-thrones

Roberts, Josh (April 1, 2012). "Where HBO's hit 'Game of Thron

In [13]:
# Antes de continuar con otro ejemplo, quedan dos pequeñas observaciones por hacer con respecto a find y find_all . 
# Si se encuentra atravesando una cadena de nombres de etiquetas de la siguiente manera:
# >>> tag.find('div').find('table').find('thead').find('tr')

# Puede ser útil tener en cuenta que Beautiful Soup también nos permite escribir esto de forma abreviada:
# >>> tag.div.table.thead.tr

#Del mismo modo, la siguiente línea de código:
# >>> tag.find_all('h1')

#Es lo mismo que llamar:
# >>> tag('h1')

# Aunque esto, nuevamente, se ofrece por conveniencia, no obstante, continuaremos usando find y find_all en su totalidad a 
# lo largo de este libro, ya que encontramos que ser un poco más explícito ayuda a la legibilidad en este caso.

In [14]:
# Intentemos ahora resolver el siguiente caso de uso. Notarás que nuestra página de Wikipedia de Game of Thrones tiene una 
# serie de tablas bien mantenidas que enumeran los episodios con sus directores, escritores, fecha de emisión y número de 
# espectadores. Intentemos obtener todos estos datos a la vez usando lo que hemos aprendido:

import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/w/index.php' + \
      '?title=List_of_Game_of_Thrones_episodes&oldid=802553687'
r = requests.get(url)
html_contents = r.text
html_soup = BeautifulSoup(html_contents, 'html.parser')
# Usaremos una lista para almacenar nuestra lista de episodios
episodes = []
ep_tables = html_soup.find_all('table', class_="wikiepisodetable")
for table in ep_tables:
    headers = []
    rows = table.find_all('tr')
    # Empiece por buscar las celdas del encabezado de la primera fila para determinar
    # los nombres de los campos
    for header in table.find('tr').find_all('th'):
        headers.append(header.text)
    # Luego recorre todas las filas excepto la primerae
    for row in table.find_all('tr')[1:]:
        values = []
        # Y obtenga las celdas de la columna, la primera está dentro de una etiqueta th
        for col in row.find_all(['th','td']):
            values.append(col.text)
        if values:
            episode_dict = {headers[i]: values[i] for i in range(len(values))}
            episodes.append(episode_dict)
# Show the results
for episode in episodes:
    print(episode)

{'No.overall': '1', 'No. inseason': '1', 'Title': '"Winter Is Coming"', 'Directed by': 'Tim Van Patten', 'Written by': 'David Benioff & D. B. Weiss', 'Original air date\u200a[20]': 'April\xa017,\xa02011\xa0(2011-04-17)', 'U.S. viewers(millions)': '2.22[21]'}
{'No.overall': '2', 'No. inseason': '2', 'Title': '"The Kingsroad"', 'Directed by': 'Tim Van Patten', 'Written by': 'David Benioff & D. B. Weiss', 'Original air date\u200a[20]': 'April\xa024,\xa02011\xa0(2011-04-24)', 'U.S. viewers(millions)': '2.20[22]'}
{'No.overall': '3', 'No. inseason': '3', 'Title': '"Lord Snow"', 'Directed by': 'Brian Kirk', 'Written by': 'David Benioff & D. B. Weiss', 'Original air date\u200a[20]': 'May\xa01,\xa02011\xa0(2011-05-01)', 'U.S. viewers(millions)': '2.44[23]'}
{'No.overall': '4', 'No. inseason': '4', 'Title': '"Cripples, Bastards, and Broken Things"', 'Directed by': 'Brian Kirk', 'Written by': 'Bryan Cogman', 'Original air date\u200a[20]': 'May\xa08,\xa02011\xa0(2011-05-08)', 'U.S. viewers(millio

In [18]:
# *** More on Beautiful Soup

# Ahora que entendemos los conceptos básicos de Beautiful Soup, estamos listos para explorar la biblioteca un poco más. 
# En primer lugar, aunque ya hemos visto los conceptos básicos de find y find_all , es importante señalar que estos métodos 
# son muy versátiles. Ya hemos visto cómo puede filtrar por un nombre de etiqueta simple o una lista de ellos:

html_soup.find('h1')
html_soup.find(['h1', 'h2'])

<h1 class="firstHeading" id="firstHeading">List of <i>Game of Thrones</i> episodes</h1>

In [19]:
# Sin embargo, estos métodos también pueden tomar otros tipos de objetos, como un objeto de expresión regular. 
# La siguiente línea de código coincidirá con todas las etiquetas que comiencen con la letra "h" mediante la construcción 
# de una expresión regular utilizando el módulo "re" de Python:

import re
html_soup.find(re.compile('^h'))

<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of Game of Thrones episodes - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"47ed7ed1-550f-4097-9e11-3858cb71ff78","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_Game_of_Thrones_episodes","wgTitle":"List of Game of Thrones episodes","wgCurRevisionId":1036829692,"wgRevisionId":802553687,"wgArticleId":31120069,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 errors: unsupported parameter","Articles containing potentially dated statements from August 2017","All articles containin

In [23]:
# Además de cadenas, listas y expresiones regulares, también puede pasar una función. Esto es útil en casos complicados 
# donde otros enfoques no funcionarían:

def has_classa_but_not_classb(tag):
 cls = tag.get('class', [])
 return 'classa' in cls and not 'classb' in cls
html_soup.find(has_classa_but_not_classb)

In [24]:
# *** ~~~ ***

In [26]:
# Aunque todos estos pueden ser útiles, encontrará que find y find_all ocuparán la mayor parte de la carga de trabajo al 
# navegar por un árbol HTML. Sin embargo, hay un método más que es extremadamente útil: seleccionar . Finalmente, 
# los selectores de CSS que hemos visto anteriormente pueden ser útiles. Con este método, simplemente puede pasar una 
# regla de selección de CSS como una cadena.

# Beautiful Soup devolverá una lista de elementos que coinciden con esta regla:

# Buscar todas las etiquetas <a>
# >>> html_soup.select('a')
# Encuentra el elemento con el ID de información
# >>> html_soup.select('#info')
# Busque etiquetas <div> con clases CSS de classa y classb
# >>> html_soup.select(div.classa.classb)
# Busque etiquetas <a> con un atributo href que comience con http://example.com/
# >>> html_soup.select('a[href^="http://example.com/"]')
# Busque etiquetas <li> que sean secundarias de etiquetas <ul> con clase lst
# >>> html_soup.select(ul.lst > li')

NameError: name 'div' is not defined

In [27]:
# Una vez que empiece a acostumbrarse a los selectores de CSS, este método puede ser muy poderoso. Por ejemplo, si queremos 
# averiguar los enlaces de citas de nuestra página de Wikipedia de Game of Thrones , simplemente podemos ejecutar:

for link in html_soup.select('ol.references cite a[href]'):
 print(link.get('href'))

https://web.archive.org/web/20120817073932/http://tv.ign.com/articles/116/1160215p1.html
/wiki/IGN
http://tv.ign.com/articles/116/1160215p1.html
https://web.archive.org/web/20120516224747/http://www.variety.com/article/VR1117957532?refCatId=14
/wiki/Variety_(magazine)
http://www.variety.com/article/VR1117957532.html?categoryid=14&cs=1
http://www.emmys.com/shows/game-thrones
/wiki/Emmy_Award
https://web.archive.org/web/20120401123724/http://travel.usatoday.com/destinations/story/2012-04-01/Where-the-HBO-hit-Game-of-Thrones-was-filmed/53876876/1
/wiki/USA_Today
http://travel.usatoday.com/destinations/story/2012-04-01/Where-the-HBO-hit-Game-of-Thrones-was-filmed/53876876/1
https://web.archive.org/web/20131016062544/http://blog.zap2it.com/frominsidethebox/2013/01/game-of-thrones-casts-a-bear-and-shoots-in-los-angeles-for-major-season-3-scene.html
/wiki/Zap2it
http://blog.zap2it.com/frominsidethebox/2013/01/game-of-thrones-casts-a-bear-and-shoots-in-los-angeles-for-major-season-3-scene.html

In [28]:
# Sin embargo, el motor de reglas de selección de CSS en Beautiful Soup no es tan poderoso como el que se encuentra en un 
# navegador web moderno. Las siguientes reglas son selectores válidos, pero no funcionarán en Beautiful Soup:

# Esto no funcionará:
# cite a[href][rel=nofollow]
# En su lugar, puede usar:
tags = [t for t in html_soup.select('cite a[href]') \
 if 'nofollow' in t.get('rel', [])]
# Esto no funcionará:
# cite a[href][rel=nofollow]:not([href*="archive.org"])
# En su lugar, puede usar:
tags = [t for t in html_soup.select('cite a[href]') \
 if 'nofollow' in t.get('rel', []) and 'archive.org' not in
t.get('href')]

In [None]:
# Afortunadamente, los casos en los que necesita recurrir a selectores tan complejos son raros, y recuerde que aún puede 
# usar find , find_all y friends también (intente jugar con las dos muestras anteriores y reescribirlas sin usar select ).