![Imagen Beutiful Soup](https://beautiful-soup-4.readthedocs.io/en/latest/_images/6.1.jpg) 

<h1><center>Beautiful Soup</center></h1>

<h3><b>Definición</b></h3>

*Betutiful soup, so rich and green,* 

*Waiting in a hot tureen!*

*Who for such dainties would not stoop?*

*Soup of the evening, beautiful Soup!*


Es una librería de Python que lleva el nombre del poema de Lewis Carroll, porque trata de dar sentido a lo absurdo, sirve para extraer data de documentos HTML y XML, ayuda a dar formato y organizar una web desordenada. Devuelve un objeto transitable (una especie de árbol de la página analizada). 

Un documento HTML se compone de etiquetas organizadas en una especie de árbol, viéndolo de esta manera, nos damos cuenta que hay ancestros, descendientes, padres, hijos y hermanos: 

![Imágen árbol HTML](http://watershedcreative.com/naked/img/dom-tree.png)



Esta librearía no es una por default de Python, por ello debemos instalar la librería manualmente. 

Como se encuentra publicado a través de PyPi (Python Package Index), podemos emplear el administrador de paquetes que viene con la instalación de python 

`pip`

> *Recordar* si se tiene instaladas las versiones 2.x y 3.x en la máquina es probable que se necesite instalar empleando `pip3` 

```PowerShell
$ pip install beautifulsoup4
```

Para importarlo en nuestro entorno escribimos la siguiente línea de código:

```Python
from bs4 import BeautifulSoup
````

El objeto más empleado de la librería BeutifulSoup es el objeto `BeautifulSoup`.

Tomemos este documento de HTML como ejemplo, el cual es un extracto de *Alice in Wonderland* :

In [1]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Si corremos este documento creado a través de Beautiful Soup, nos retorna un objeto `BeautifulSoup` que representa el documento como una estructura de datos anidados: 

In [2]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())
#prettify es un método que convierte un objeto BeautifulSoul en un formato 
# organizado de Unicode String, con una línea de separación para cada tag 
# y string

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



Aquí unas simples formas de navegar la estructura de datos dentro del objeto soup: 

In [3]:
# determino el tipo de objeto que es soup
type(soup)

bs4.BeautifulSoup

In [4]:
# devuelve el tag title
soup.title

<title>The Dormouse's story</title>

In [5]:
# devuelve el nombre del tag title 
soup.title.name

'title'

In [6]:
# devuelve el String que se encuentra en el tag title
soup.title.string

"The Dormouse's story"

In [7]:
# devuelve el nombre del tag padre (que está por encima) de title
soup.title.parent.name

'head'

In [17]:
# devuelve el primer tag p
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [19]:
# devuelve el primer tag a que encuentra 
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [20]:
# busca todos los tags a 
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [21]:
# una tarea común es extraer todas las URL que encontramos en los tags
# 'a' de la página
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [5]:
# otra tarea común es extraer todo el texto de una página: 
print(soup.get_text())


The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [7]:
# regresa None porque string se emplea para obtener el string en un tag.
print(soup.string)

None


Beautiful Soup soporta el analizador HTML incluido en la biblioteca estándar de Python, pero también soporta analizadores externos (lxml, html5lib).

In [23]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(),'html.parser')
print(bs.h1)

<h1>An Interesting Title</h1>


Este ejemplo retorna sólo la primera instancia de la etiqueta h1 encontrada en la página. 

BeautifulSoup puede usar el objeto que se obtiene directamente con urlopen sin llamar al método .read():

```Python
bs = BeautifulSoup(html, 'html.parser')

Para crear un objeto BeautifulSoup se utiliza el constructor `BeautifulSoup` al cual se le pasan 2 armgumentos. 
En el ejemplo pasamos un texto HTML como primer argumento y en el segundo argumento especificamos el analizador que queremos que BeautifulSoup utilice para crear el objeto (html.parser es uno incluido en Python 3).

**¡Apliquemos lo aprendido!**

Empleando el siguiente código: 
```HTML
<html lang="en">
<head>
    <title>Just testing</title>
</head>
<body>
    <h1>Just testing</h1>
    <div class="block">
      <h2>Some links</h2>
      <p>Hi there!</p>
      <ul id="data">
        <li class="blue"><a href="https://example1.com">Example 1</a></li>
        <li class="red"><a href="https://example2.com">Example 2</a></li>
        <li class="gold"><a href="https://example3.com">Example 3</a></li>
      </ul>
    </div>
    <div class="block">
      <h2>Formulario</h2>
      <form action="" method="post">
        <label for="POST-name">Nombre:</label>
        <input id="POST-name" type="text" name="name">
        <input type="submit" value="Save">
      </form>
    </div>
    <div class="footer">
      This is the footer
      <span class="inline"><p>This is span 1</p></span>
      <span class="inline"><p>This is span 2</p></span>
      <span class="inline"><p>This is span 2</p></span>
    </div>
</body>
</html>
```

Crear un objeto BeautifulSoup.

Localizar todos los enlaces e imprimirlos en pantalla. 

Localizar todos los elementos de la clase inline.

Localizar todos los div con la clase footer.

Localizar todos los elementos cuyo atributo type tenga el valor text.

Localizar todos los h2 que contengan el texto Formulario.

Localizar todos los elementos de titulo h1, h2, h3.

Localizar todos los input y los span. 

Localizar todos los párrafos que están dentro del pie de página (utilice selectores CSS)


<h4><b>Ventajas y desventajas de cada librería</b></h4>

Parser: 

- **html.parser**:
    -  Uso Típico: 

       `BeautifulSoup(markup, "html.parser")`
    -  Ventajas: 

        Velocidad decente

        Incluído en Python
    
    -  Desventajas:

        No tan rápido como lxml
    
- **lxml (HTML)**:
    -  Uso Típico: 

       `BeautifulSoup(markup, "lxml")`
    -  Ventajas: 

        Muy veloz 
        
        Mejor para analizar código HTML desordenado o mal estructurado
    
    -  Desventajas:

        Se intala por separado (`pip install lxml`)

        Depende de librerias de C externas 

- **lxml (XML)**:
    -  Uso Típico: 

       `BeautifulSoup(markup, "lxml-xml")`

       `BeautifulSoup(markup, "xml")`

    -  Ventajas: 

        Muy veloz 
        
        Único analizador que soporta XML actualmente 
    
    -  Desventajas:

        Depende de librerias de C externas 
        
- **html5lib**:
    -  Uso Típico: 

       `BeautifulSoup(markup, "html5lib")`

    -  Ventajas: 

        Analiza páginas de la misma manera que un web browser haría

        Crea HTML5 válido
    
    -  Desventajas:

        Muy lento

        Dependencias externas 

> *¿Qué ocurre detrás?*

Primero, BeautifulSoup convierte el documento en Unicode y las entidades HTML son convertidas en caracteres Unicode.

Luego, BeautifulSoup analiza el documento con el parser seleccionado. 

<h3>Tipos de objetos:</h3>

Beautiful Soup transforma un documento HTML complejo en un arbol complejo de objetos de Python. Los más utilizados: 

<h5>Tag</h5>

Corresponde a un tag en el documento original: 

In [26]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)

bs4.element.Tag

Los tags tienen muchos atributos y métodos como: 

In [27]:
tag.name

'b'

In [29]:
# si se cambia el nombre del tag, se refleja en el objeto generado 
# por Beautiful Soup
tag.name = "blockquote"
tag

<blockquote class="boldest">Extremely bold</blockquote>

*Atributos*

Una etiqueta (tag) tiene varios atributos. En ``` <b id="boldest">``` el atributo de la etiqueta es "id" y su valor es "boldest". Se puede acceder a estos atributos tratando a la etiqueta como un diccionario. 

In [31]:
tag['class']

['boldest']

In [32]:
# se puede acceder al diccionario directamente con ".attrs"

tag.attrs

{'class': ['boldest']}

Se puede agregar, remover o modificar el atributo de una etiqueta. 
Siempre tratando a la etiqueta como un diccionario.

In [33]:
tag['class']='verybold'
tag

<blockquote class="verybold">Extremely bold</blockquote>

In [34]:
del tag['class']
tag

<blockquote>Extremely bold</blockquote>

Atributos multivaluados: 

- class (puede tener más de 1 CSS class)
- rel
- rev
- accept-charset
- headers
- accesskey

BeautifulSoup presenta los valores como una lista. 


In [36]:
css_soup= BeautifulSoup('<p class="body"></p>')
css_soup.p['class']

['body']

In [37]:
css_soup = BeautifulSoup ('<p class="body strikeout"></p>')
css_soup.p['class']

['body', 'strikeout']

In [38]:
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>')
rel_soup.a['rel']

['index']

In [39]:
# cuando paso una lista de atributos se consolidan
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)

<p>Back to the <a rel="index contents">homepage</a></p>


In [40]:
# esto se puede desabilitar pasando el multi_valued_attributes=None
# como argumento al constructor
no_list_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html', multi_valued_attributes=None)
no_list_soup.p['class']

'body strikeout'

<h5>Navigable String</h5>

Un string corresponde a un bit de texto entre etiquetas. Beautiful Soup utiliza la clase `NavigableString` para contener estos bits de texto. 

In [41]:
tag.string

'Extremely bold'

In [42]:
type(tag.string)

bs4.element.NavigableString

In [44]:
# no se puede editar un string pero sí cambiar uno por otro
tag.string.replace_with("No longer bold")
tag

<blockquote>No longer bold</blockquote>

<h5>BeautifulSoup</h5>

Este objeto se crea con el constructor definido previamente y representa el documento entero analizado. Soporta muchos métodos de los objetos Tag. 

Como no es un objeto que corresponda a una etiqueta de HTML o XML en sí, no tiene nombre ni atributos. 

<h5>Comentarios</h5>

Es un objeto especial del tipo NavigableString. Se usa para encontrar comentarios HTML en tags de comentario.

In [53]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)

bs4.element.Comment

<h5>Ejemplos</h5>


In [56]:

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(),'html.parser')
namelist = bs.find_all('span',{'class':'green'})
for name in namelist:
    print(name.get_text())

# bs.find_all(tagName,tagAttributes) obtiene una lista de los tags de la página
# name.get_text()separa el contenido de los tags 

> Ojo que al utilizar get_text se retiran los tags del documento, retorna un string Unicode con solo el texto. 
Debe ser la última cosa que se haga antes de imprimir, almacenar o manipular la data final. 
En la medida de los posible se debe preservar la estructura de etiquetas del documento. 



*Diferencia entre find y find_all*

`find_all(tag,attributes,recursive,text,limit,keywords)`

`find(tag,attributes,recursive,text,keywords)`

Find sólo devuelve el primer tag que encuentre, mientras que find_all devuelve una lista. 

- Argumento tag: se puede pasar un string de nombre de un tag o una lista de nombres.
- Argumento attributes: toma un diccionario Python de atributos y hace un match con el tag y esos atributos. 
- Argumento recursive: Es un boolean. Indica que tan profundo en el documento se desea llegar. Si es True busca a los hijos (a una etiqueta debajo del padre) y descendientes (pueden estar a cualquier nivel del arbol debajo del padre). Si es False sólo busca las etiquetas de alto nivel en el documento. Por defecto, trabaja recursivamente. 
- Argumento text: busca una coincidencia con el texto que contienen las etiquetas, más que las propiedades en sí. 
- Argumento limit: sólo en find_all, en find es el equivalente a find_all con un límite de 1. 
- Argumento keywords: permite seleccionar etiquetas que contienen un atributo particular o set de atributos. 


<h5>Navegando árboles</h5>

**Manejando hijos y descendientes**

Todos los hijos son descendientes, no todos los descendientes son hijos. 
Si se quiere encontrar descendientes que sean hijos se usa `.children`

In [58]:
# imprime la lista de filas de productos de la tabla giftList, incluyendo
# la primera fila inicial de los nombres de las columnas. 
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html.read(),'html.parser')

for child in bs.find('table',{'id':'giftList'}).children:
    print(child)




<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


**Manejando hermanos**

Para ello empleo la función `next_siblings()` o `previous_siblings`.

In [60]:
# imprime todas las filas de productos de la tabla producto, excepto la 
# primera fila, sólo llama al "next sibling"
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html.read(),'html.parser')

for sibling in bs.find('table',{'id':'giftList'}).tr.next_siblings:
    print(sibling)




<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

**Manejando padres**

Es menos frecuente tener que buscarlos. 

In [65]:
# 1ero selecciona el tag de imagen 
# 2do selecciona el padre que es la etiqueta td 
# 3ro selecciona el hermano anterior que es el td que contiene el valor
# en dolares 
# 4to selecciona el texto entre las etiquetas 
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')
print(bs.find('img',{'src':'../img/gifts/img1.jpg'})
        .parent.previous_sibling.get_text())


$15.00



<h5>Expresiones Regulares</h5>

Conocido como *regex*. 

Es cualquier string que se puede generar siguiendo una serie de reglas. 

Se utilizan para identificar strings regulares, de utilidad para escanear rápidamente un documento grande en busca de strings que se vean como un número de teléfono o correo electrónico. 

Ejemplos: 

- `aa*` -> a* significa cualquier número de a incluido el 0. El a delante garantiza que por lo menos se debe tener 1 letra a. 
- `bbbbb` -> 5 b en fila.
- `(cc)*` -> se puede tener de 0 a más pares de c.
- `(d|e)` -> el | significa or, aparece o d o e.

> Si se quiere hacer un test de la expresión regular creada, se puede acceder a https://www.regexpal.com/

Símbolos comunmente usados: 

- `*` busca el caracter, subexpresión o caracter entre [] que este por delante, puede repetirse 0-n veces. 
- `+` busca el caracter, subexpresión o caracter entre [] que este por delante, puede repetirse 1-n veces. 
- `[]` busca cualquiera de los caracteres dentro de []. 
- `()` grupo de subexpresiones, se evalua en orden de operación. 
- `{m,n}` busca el caracter, subexpresión o caracter entre [] que este por delante, entre m y n veces (inclusive).
- `[^]` busca el caracter que no este dentro de []. 
- `.` busca un único, incluido simbolos, números, expacios, etc. 
- `^` indica que el caracter o subexpresión ocurre al inicio del string.
- `\` el caracter de escape permite utilizar caracteres especiales con su significado literal.
- `$` empleado al final de un regex, busca la coincidencia al final del string. Si no se especifica por default al final está .*
- `?!` precede un caracter, subexpresión que no quiero que se encuentre en un lugar específica del string. Si se quiere emplear para todo el string se puede combinar con ^ al inicio y $ al final. 

> Recomendación: hacer una lista de pasos para cumplir con las reglas. 

Para emplearlo en Python se debe importar el módulo `re` que provee las operaciones de expresión regular. 

A continuación en el ejemplo, se emplea la funcón del modulo re `.compile` el cual compila un patrón de expresión regular en un objeto de expresión regular el cual se puede utilizar para buscar coincidencias empleando `match()` , `search()`y otros métodos. 

- `.search(pattern,string,flags=0)` -> escanea un string buscando la primera ubicación donde hay coincidencia con el patrón de la expresión regular y retorna un objeto que coincide, retorna None si no se localiza coindidencia alguna. 

- `.match(pattern,string,flags=0)` -> si 0 o más caracteres al inicio del string coinciden con el patrón retorna un objeto que coincide, retorna None si no hay un string que coincida. OJO, la coincidencia debe ser al inicio del string no al inicio de cada linea. 

Para más información, se puede acceder a la documentación oficial: 
https://docs.python.org/3/library/re.html

In [69]:
# al pasar un objeto de expresión regular, BeautifulSoup filtra según el 
# patrón empleando el método search()
# este ejemplo encuentra los tags cuyos nombres empiezan con 'b' 
import re 
for tag in soup.find_all(re.compile("^b")):
    print(tag)
    print(tag.name)

<body><b><!--Hey, buddy. Want to buy a used parser?--></b></body>
body
<b><!--Hey, buddy. Want to buy a used parser?--></b>
b


In [71]:
#busca los tags cuyos nombres contengan la letra t
for tag in soup.find_all(re.compile('t')):
    print(tag.name)

html


In [73]:
# imprime solo la ruta relativa de la imagen que inicia con
# ../img/gifts/img y que termina con .jpg
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')
images = bs.find_all('img',
    {'src':re.compile('\.\.\/img\/gifts/img.*\.jpg')})
for image in images:
    print (image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


**¡Aplicando lo aprendido!**

Aplicar expresiones regulares para validar una URL.
¿Que patrón debe cumplir una URL para ser válida?

In [None]:
#Aquí inicia tu código
url = re.compile()

if url.search("https://pythondiario.com/"): # Comprobemos que esta es una URL valida
    print("URL Valida")
else:
    print("URL No Valida")

<h3>Web Crawler</h3>

Se le llama así porque recorre por toda la web. Es un elemento recursivo, recupera contenidos de una página para una URL, examina la página para otro URL y devuelve esa página y así n veces. 

Se debe estar conciente de que tanto ancho de banda se utiliza y hacer el esfuerzo por determinar si hay una manera de facilitar la carga del servidor de destino. 




In [75]:
# se produce una lista de links de la pagina, sin embargo, no todas nos son
# útiles como el Privacy_Policy
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html,'html.parser')
for link in bs.find_all('a'):
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/Wikipedia:Protection_policy#semi
#mw-head
#searchInput
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
#cite_note-1
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Wikipedia:Citation_needed
http://baconbros.com/
#cite_note-2
#cite_note-actor-3
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/X-Men:_First_Class
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chan

Si se examina los links que apuntan a páginas de articulos, tienen 3 cosas en común:
-  Residen dentro de div con un id `bodyContent`
-  URLs no contienen dos puntos
-  URLs inician con /wiki/

In [76]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html,'html.parser')
for link in bs.find('div',{'id':'bodyContent'}).find_all(
    'a',href=re.compile('^(/wiki/)((?!:).)*$')):
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/Streaming_television
/wiki/I_Love_Dick_(TV_series)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Television_Series_Musical_or

Para poder reutilizar el código y modularizar, es una buena práctica definir una función para cada tarea. 
-  Una función getLinks que tome una URL de un artículo de Wikipedia de la forma `/wiki/<Article_Name>` y retorne una lista de los URLs de todos los artículos enlazados en la misma forma. 
-  Una función main que invoque a getLinks con un artículo inicial, escoge un link de artículo random de la lista retornada y llama nuevamente a getLinks hasta que uno detenga el programa o no se hayan encontrado links en la nueva página. 

In [77]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import datetime
import random 

random.seed(datetime.datetime.now()) #esto asegura un nuevo e interesante 
#camino random por artículos de Wikipedia cada vez que el programa se ejecuta

def getLinks(articleUrl):
    html = urlopen(f'http://en.wikipedia.org{articleUrl}')
    bs = BeautifulSoup(html,'html.parser')
    return bs.find('div',{'id':'bodyContent'}).find_all(
    'a',href=re.compile('^(/wiki/)((?!:).)*$'))

links = getLinks('/wiki/Kevin_Bacon')
while len(links) >0:
    newArticle = links[random.randint(0, len(links)-1)].attrs['href']
    print(newArticle)
    links=getLinks(newArticle)


since Python 3.9 and will be removed in a subsequent version. The only 
supported seed types are: None, int, float, str, bytes, and bytearray.
  random.seed(datetime.datetime.now())


/wiki/Matthew_Vaughn
/wiki/Bryce_Dallas_Howard
/wiki/Dads_(film)
/wiki/The_Chamber_(1996_film)
/wiki/Masquerade_(1965_film)
/wiki/The_Hot_Rock_(film)
/wiki/Gene_Norman_Presents_the_Original_Gerry_Mulligan_Tentet_and_Quartet
/wiki/Capitol_Records
/wiki/Billboard_(magazine)
/wiki/Watson-Guptill
/wiki/Auto,_Motor_und_Sport
/wiki/Books_on_Tape_(company)
/wiki/Fun_Radio_(France)
/wiki/Les_Ind%C3%A9s_Radios
/wiki/Radio_Dreyeckland
/wiki/Radio_Orient
/wiki/NRJ
/wiki/Skyrock_(radio)
/wiki/NextRadioTV
/wiki/Alain_Weill
/wiki/SFR
/wiki/Telenet_(Belgium)
/wiki/Play4
/wiki/Exclamation_point
/wiki/Not!
/wiki/Subject%E2%80%93auxiliary_inversion
/wiki/Subordinate_clause
/wiki/Indirect_object
/wiki/Functional_theories_of_grammar
/wiki/ISBN_(identifier)
/wiki/Bookland
/wiki/Academic_Press
/wiki/ISSN_(identifier)
/wiki/International_Standard_Music_Number
/wiki/ISO/IEC_7813
/wiki/Longitudinal_redundancy_check
/wiki/Parity_bit


KeyboardInterrupt: 

*Crawling de un sitio entero*

Es un proceso intensivo de memoria cuya aplicación es más adecuada para aplicaciones donde una base de datos para almacenar los resultados se encuentre fáculmente disponible. 

Web Scrapers que atraviesen un sitio entero son buenos por: 
-  Generar un mapa del sitio
-  Reunir datos 

Tener en cuenta que la mayoría de links internos están duplicados, para evitar pasar por la misma página 2 veces, es importante que todos los links internos encontrados sean formateados consistentemente y se mantengan en un set para rápido alcance. 

In [79]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()

def getLinks(pageUrl):
    global pages
    html = urlopen(f'http://en.wikipedia.org{pageUrl}')
    bs = BeautifulSoup(html,'html.parser')
    for link in bs.find_all('a', href=re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages: 
                #se encontró una nueva pagia 
                newPage = link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getLinks(newPage)
            
getLinks('')

#recordar que Python tiene un limite de recursividad de 1000

/wiki/Wikipedia


KeyboardInterrupt: 

Para construir un scraper que colecte el titulo, primer párrafo de contenido y el link para editar la página (si disponible):

El primer paso es determinar la mejor manera de hacerlo, ver páginas del sitio y determinar un patrón. 


In [80]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()

def getLinks(pageUrl):
    global pages
    html = urlopen(f'http://en.wikipedia.org{pageUrl}')
    bs = BeautifulSoup(html,'html.parser')
    try: 
        print(bs.h1.get_text())
        print(bs.find(id='mw-content-text').find_all('p')[0])
        print(bs.find(id='ca-edit').find('span').find('a').attrs['href'])
    except AttributeError:
        print('A esta página le falta algo! Continuando.')

    for link in bs.find_all('a', href=re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages: 
                #se encontró una nueva pagia 
                newPage = link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getLinks(newPage)
            
getLinks('')

Main Page
<p><b><a href="/wiki/September_15" title="September 15">September 15</a></b>: <b><a href="/wiki/Battle_of_Britain_Day" title="Battle of Britain Day">Battle of Britain Day</a></b> in the United Kingdom (<a href="/wiki/1940" title="1940">1940</a>)
</p>
A esta página le falta algo! Continuando.
/wiki/Wikipedia
Wikipedia
<p class="mw-empty-elt">
</p>
A esta página le falta algo! Continuando.
/wiki/Wikipedia:Protection_policy#semi
Wikipedia:Protection policy
<p class="mw-empty-elt">
</p>
A esta página le falta algo! Continuando.
/wiki/Wikipedia:Requests_for_page_protection
Wikipedia:Requests for page protection
<p>This page is for requesting that a page, file or template be <b>protected</b>. Please read up on the <a href="/wiki/Wikipedia:Protection_policy" title="Wikipedia:Protection policy">protection policy</a>. Full protection is used to stop edit warring between multiple users or to prevent vandalism to <a href="/wiki/Wikipedia:High-risk_templates" title="Wikipedia:High-risk t

KeyboardInterrupt: 