[![imagenes](imagenes/pythonista.png)](https://pythonista.mx)

## El paquete _urllib_.

El módulo _urllib_ permite acceder a cualquier recurso publicado en la red (páginas web, archivos, directorios, imágenes, etc) mediante diversos protocolos (HTTP, FTP, SFTP, etc).

### El módulo _urllib.request_. 

El módulo _urllib.request_ permite acceder a un recurso publicado en internet mediante su URL y guardar la respuesta del servidor.

In [None]:
import urllib

In [None]:
help(urllib)

In [None]:
import urllib.request

In [None]:
pagina = urllib.request.urlopen('https://pythonista.io')

In [None]:
print(pagina.read())

##  Escrutinio de HTML/XML con _BeautifulSoup_.

El paquete *BeautifuSoup* contiene una biblioteca especialziada en análizar y buscar datos dentro de un archivo HTML mediante diversos tipos de criterios como:

* Búsquedas de elementos HTML por medio de la estructura del DOM.
* Búsquedas por medio de selectores.
* Búsquedas de etiquetas.

El nombre del paquete una vez instalado es *bs4*.

In [None]:
!pip install beautifulsoup4

**Ejemplo:**

Se cargará la página [html/index.html](html/index.html).

**Nota:** Asegúrese que la ruta absoluta al archivo sea correcta.

In [None]:
%pwd

In [None]:
pagina = urllib.request.urlopen('file:///opt/pythonista/py121/html/index.html')
html = pagina.read()

In [None]:
print(html)

### La clase *bs4.BeautifulSoup*.

Para poder realizar operaciones con un documento HTML es necesario crear un objeto a partir de la clase *bs4.BeautifulSoup* ingresando un objeto tipo *str* que contiene el código HTML y seleccionando el tipo de analizador a utilizar.

```
bs4.BeautifulSoup(<objeto tipo str>, <tipo de analizador>)
```

Beautifulsoup soporta varios tipos de analizadores del código, pero por defecto se utiliza *'html_parser'*.

Para conocer más sobre las opciones de analizadores puede consultar https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser.

In [None]:
import bs4

In [None]:
sopa = bs4.BeautifulSoup(html, 'html.parser')

In [None]:
type(sopa)

In [None]:
dir(sopa)

### Despliegue del código HTML.
El atributo _prettify()_ permite desplegar el código HTML de forma legible para los humanos.

In [None]:
print(sopa.prettify())

### Acceso a elementos mediante DOM.

DOM es el acrónimo de Modelo de Objeto de Documento por sus siglas en inglés y es la forma en la que un navegador interpreta un documento HTML dentro de una ventana.

El DOM presenta una estructura similar a la del tronco de un árbol a partir del cual se bifurcan ramas. Se dice que el elemento HTML que contiene a otros elementos es el padre de estos. 

```                
padre(parent)
| hijos(children)
├──elemento
├──hermano(sibling)
```

Cuando se realizan búsquedas mediante el DOM, BeautifulSoup regresa el primer elemento con la etiqueta HTML que coincida.

### Los objetos de tipo *bs4.element.Tag*.

El resultado es un objeto de tipo *bs4.element.Tag* que también contiene métodos y atributos de búsqueda e información del elemento. Los atributos principales que tienen estos objetos son:

* *name*
* *text*
* *attribs*
* *parent*
* *children*

**Ejemplos:**

In [None]:
sopa.title

In [None]:
type(sopa.title)

In [None]:
sopa.title.text

In [None]:
sopa.body.text

In [None]:
[elemento for elemento in sopa.body.children]

In [None]:
sopa.a

In [None]:
sopa.a.name

In [None]:
sopa.a.text

In [None]:
sopa.a.attrs

In [None]:
sopa.footer

In [None]:
sopa.footer.parent.name

In [None]:
[elemento for elemento in sopa.footer.children]

In [None]:
sopa.head

In [None]:
sopa.head.meta

In [None]:
sopa.body.a

In [None]:
sopa.head.meta.attrs

In [None]:
sopa.footer.parent.name

### Acceso a elementos mediante selectores.

El método *select()* permite definir búsquedads mendiante selectores, trayendo por resultado un objeto tipo *list* con todos los elementos que coinciden con al búsqueda comop objetos tipo *bs4.element.Tag*.

Para saber más de selectores puede consultar:

[https://developer.mozilla.org/en-US/docs/Learn/CSS/Introduction_to_CSS/Selectors](https://developer.mozilla.org/en-US/docs/Learn/CSS/Introduction_to_CSS/Selectors)

In [None]:
sopa.body.select('a')

In [None]:
sopa.body.select('a')[0]

In [None]:
type(sopa.body.select('a')[0])

### Otros métodos para acceder a elementos y datos de HTML.
Los siguientes métodos también permiten realizar búsquedas de elementos.
 * *find()*.
 * *findall()*.
 * *findNext()*.
 * *findPrevious()*.
 * *fetchParents()*.
 * *fetchNextSiblings()*.
 * *fetchPreviousSiblings()*.
 * *fetchChildren()*.
 * *get_text()*.
 * *get()*.
 

In [None]:
sopa.find_all("a")

In [None]:
sopa.find("a")

In [None]:
sopa.find("a").findNext("a")

In [None]:
sopa.find_all('img')

In [None]:
sopa.find_all('img')[0].parent

In [None]:
sopa.find("div", {"id" : 'contenedor'})

In [None]:
sopa.head.fetchNextSiblings()

In [None]:
sopa.footer.get_text()

In [None]:
sopa.a.get('href')

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>