# Uso, interpretación y gestión de datos abiertos

## 1. Web Scrapping

En ocasiones, se necesita extraer grandes cantidades de datos diréctamente de alguna página web y no existen mecanismos de descarga de datos como las APIs. En este caso, existen técnicas que permiten la automatización del proceso de extracción y descarga de información teniendo en cuenta el conocimiento de la estructura de las páginas web, a estas técnicas se le conocen como **Web Scrapping**.

En general, el proceso de webscrapping puede dividirse en los siguientes pasos:
* Solicitar el contenido de la página utilizando la URL.
* Descargar los datos devueltos en la petición.
* Identificar los elementos de la página que contienen la información de nuestro interés.
* Extraer aquellos elementos y guardarlos.


A pesar de lo interesante, poderoso y versátil que resulte este proceso de extracción de información, es importante recalcar que la legalidad puede variar de página a página. Los términos y condiciones de cada página en particular nos pueden indicar las restricción en la descarga de la información contenida en sí misma.

Para realizar el proceso de webscrapping en Python, se hará uso de dos módulos importantes: **requests** y **BeautifulSoup**. El módulo requests es parte de la distribución estándar de Python y se encarga de hacer las peticiones de contenido HTML. Por otro lado, el módulo externo BeautifulSoup permite la extracción de datos de archivos en formato HTML y XML. Principalmente agrega formas idiomáticas para navegar, explorar y modificar los árboles de estructura de los archivos.

## 1.1 HTML: Estructura y Sintaxis

El Lenguaje de Marcado de Hipertexto (HTML por sus siglas en inglés) es el estándar utilizado para aquellos documentos diseñados para ser mostrados en un navegador. Es asistido por otras dos tecnologías: Hojas de Estilo en Cascada (CSS por sus siglas en inglés) y el lenguaje de scripting JavaScript, abreviado como JS.

Un documento de HTML está compuesto por múltiples elementos que sirven como bloques de construcción para la página, incluyendo constructos, imágenes, y otros objetos como formularios interactivos. La forma en la que HTML permite la creación de documentos estructurados es por medio de una estructura semántica para textos como títulos, párrafos, listas, vínculos, citas, y otros. Estos elementos se delimitan por etiquetas (tags), utilizando corchetes angulares (< >).

```html
<!DOCTYPE HTML>
<html>
  <head>
	<meta charset="utf-8" />
	<title>Título de la página</title>
  </head>
  <body>
	<h1>Titulo 1</h1>
	<p>Párrafo de ejemplo</p>
	<!-- Comentario que no será mostrado por el navegador -->
	<hr />
	<p>Párrafo de ejemplo</p>
  </body>
</html>
```

<!DOCTYPE HTML>
<html>
  <head>
	<meta charset="utf-8" />
	<title>Título de la página</title>
  </head>
  <body>
	<h1>Titulo 1</h1>
	<p>Párrafo de ejemplo</p>
	<!-- Comentario que no será mostrado por el navegador -->
	<hr />
	<p>Párrafo de ejemplo</p>
  </body>
</html>

En este código de ejemplo se puede apreciar la estructura de un documento mínimo de HTML y presenta una base para entender la sintaxis del lenguaje. La mayoría de las etiquetas tienen una apertura (
`<html>`) y un cierre (`</html>`). En algunos casos, para etiquetas que no necesitan encapsular un contenido, es decir, solo una etiqueta es necesaria, la “apertura” y el “cierre” se especifican en una sola etiqueta (`<hr />`).

Es importante hacer notar que existe una cierta jerarquía en las etiquetas: `<html>` es la etiqueta de mayor jerarquía, es decir, encapsula la mayor cantidad de contenido, seguida por las etiquetas `<head>` y `<body>`, que definen la información de metadata de la página y el texto a mostrar en la página, respectivamente.

Considera a continuación la descripción de las etiquetas en el bloque de código anterior:
* `<!DOCTYPE HTML`: Esta declaración no es una etiqueta de HTML, sino que sirve para informar al navegador qué tipo de documento es, y por lo tanto, qué contenido esperar.
* `<html>`: Esta etiqueta representa la base de todo el documento, indicando que todo lo que está contenido entre la apertura y el cierre es código de HTML.
* `<head>`: Este elemento contiene la meta data del documento y se ubica entre la etiqueta de <html> y <body>. Esta información no es mostrada en el navegador, pero sirve para definir atributos como el título de la página, el tipo de texto, estilos, scripts, y cualquier tipo de información similar.
* `<body>`: Define el contenido del cuerpo del documento HTML, contiene el resto de las etiquetas relacionadas con mostrar información en la página como títulos, párrafos, imágenes, vínculos, tablas, listas, etc.
* `<!-- ... -->`: Esta etiqueta tiene un comportamiento significativamente diferente a los demás, ya que sirve solamente como un comentario para el desarrollador y no será mostrado por el navegador. Normalmente sirve para agregar información en el desarrollo explicando el funcionamiento del código.

## 1.2 HTML: Etiquetas Principales

Dentro de HTML, existe una gran variedad de etiquetas que se pueden utilizar para ajustar e incluir contenido en un documento web. Para fines prácticos, podemos enfocarnos en tres categorías principales que cubren las principales funcionalidades básicas: Texto, Listas, e Imágenes.
Los dos tipos de etiquetas principales en relación con el texto son las de título y de párrafo. HTML considera seis niveles de títulos denotados por las etiquetas: `<h1>`, `<h2>`, `<h3>`, `<h4>`, `<h5>`, `<h6>`. El navegador muestra los títulos en diferentes tamaños, siendo`<h1>`el de mayor tamaño, hasta llegar al `<h6>` que es el menor. Por otro lado, para los párrafos se utiliza la etiqueta `<p>`, donde el contenido de cada párrafo se separa con un salto de línea y una cierta cantidad de espacio entre este y los párrafos subsecuentes. Además, se cuentan con las etiquetas`<b>`, y `<i>` que permiten modificar la apariencia del texto convirtiéndolo en negritas (bold) o itálicas(italic), respectivamente.

```html
<h1>Título 1</h1>
<h2>Título 2</h2>
<h3>Título 3</h3>
<h4>Título 4</h4>
<h5>Título 5</h5>
<h6>Título 6</h6>

<p>Este es un párrafo de ejemplo. Este es un párrafo de ejemplo. <b>Este es un párrafo de ejemplo.</b> Este es un párrafo de ejemplo.</p>

<p>Este es un segundo <i>párrafo</i> de ejemplo. Este es un segundo párrafo de ejemplo. Este es un segundo párrafo de ejemplo. Este es un segundo párrafo de ejemplo.</p>
```

<h1>Título 1</h1>
<h2>Título 2</h2>
<h3>Título 3</h3>
<h4>Título 4</h4>
<h5>Título 5</h5>
<h6>Título 6</h6>

<p>Este es un párrafo de ejemplo. Este es un párrafo de ejemplo. <b>Este es un párrafo de ejemplo.</b> Este es un párrafo de ejemplo.</p>

<p>Este es un segundo <i>párrafo</i> de ejemplo. Este es un segundo párrafo de ejemplo. Este es un segundo párrafo de ejemplo. Este es un segundo párrafo de ejemplo.</p>

En el caso de las listas, se tienen dos tipos principales: listas numeradas `<ol>`, y listas de viñetas `<ul>`. Estas etiquetas indican un bloque donde se definirán los múltiples elementos, cada uno de ellos con la etiqueta <il>`.

```html
<ol>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
	<ol>
    	<li>Elemento anidado</li>
    	<li>Elemento anidado</li>
	</ol>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
</ol>

<ul>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<ol>
    	<li>Elemento anidado</li>
    	<li>Elemento anidado</li>
	</ol>
	<li>Elemento de viñeta</li>
</ul>
```

<ol>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
	<ol>
    	<li>Elemento anidado</li>
    	<li>Elemento anidado</li>
	</ol>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
	<li>Elemento numerado</li>
</ol>

<ul>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<li>Elemento de viñeta</li>
	<ol>
    	<li>Elemento anidado</li>
    	<li>Elemento anidado</li>
	</ol>
	<li>Elemento de viñeta</li>
</ul>

Por último, una de las etiquetas que es de las más importantes ya que provee gran parte del atractivo de un documento web es la de imagen que se define como <img>. Esta es una etiqueta que no requiere un elemento de cierre y para su correcto funcionamiento requiere definir un atributo. En el contexto de las etiquetas de HTML, un atributo define una propiedad extra de la etiqueta, y sirve para incluir información extra. En la mayoría de los casos, estos son opcionales, pero para la etiqueta de imagen requiere que se defina el atributo de fuente (source) que se define como src. Este componente le indica al navegador donde se encuentra el archivo de la imagen que se desea visualizar, que puede o no estar alojado en el mismo servidor que la página web.

```html
<p>Logo de la página de Wikipedia en inglés</p>
<img src="https://en.wikipedia.org/static/images/project-logos/enwiki.png" />

<a href="https://en.wikipedia.org"> Wikipedia </a>
```
<p>Logo de la página de Wikipedia en inglés</p>
<img src="https://en.wikipedia.org/static/images/project-logos/enwiki.png" />

<a href="https://es.wikipedia.org"> Wikipedia </a>


## 1.3 Beautiful Soup

El módulo de Beautiful Soup permite la extracción de datos en documentos estructurados como XML y HTML.

En este código de ejemplo se presenta el proceso inicial para cargar una página web y pre-procesarla con BeautifulSoap:
* Primeramente, se cargan los módulos que se utilizarán, en este caso requests y BeautifulSoap.
* Se hace la solicitud de la página HTML a la URL indicada.
* El contenido de la página es interpretado por BeautifulSoup y devuelve un objeto que contiene, en un sistema de jerarquía, los diferentes elementos de la página de acuerdo con la estructura HTML.
* Finalmente, se imprime el contenido de la página en un formato “embellecido” para confirmar que el proceso se realizó correctamente y nos permite analizar la página a la cual estamos haciendo webscrapping.

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
# URL
url = "https://datolok.github.io/python-edx/webscrapping/simple.html"

# HTML Request
page = requests.get(url)

# HTML Parsing
soup = BeautifulSoup(page.content, 'html.parser')

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Una página web simple
  </title>
 </head>
 <body>
  <p>
   Aquí tenemos un ejemplo de contenido para esta página.
  </p>
  <div>
   <p class="inner-text">
    Este es el primer párrafo.
   </p>
   <p class="inner-text">
    Este es el contenido del segundo.
   </p>
  </div>
  <p class="outer-text">
   <b>
    Primero párrafo exterior.
   </b>
  </p>
  <p class="outer-text">
   <b>
    El segundo párrafo exterior.
   </b>
  </p>
 </body>
</html>



### 1.4 Buscando en los elementos en Beautiful Soup

Beautiful Soup toma el contenido de una página web y basándose en la estructura HTML, obtiene un objeto con la jerarquía adecuada. Ya que se tiene este objeto, el módulo define múltiples métodos para realizar búsquedas en el árbol jerárquico generado.

Los dos métodos más populares son `find()` y `find_all()`. El funcionamiento de estas funciones de búsqueda se basa principalmente en el uso de filtros para poder hacer zoom en partes particulares del documento.

Los filtros de texto son los más sencillos donde intenta encontrar una coincidencia exacta. El siguiente ejemplo identifica todas las etiquetas `<b>`:
```html
soup.find_all(‘b’)
```

La función find_all() realiza una búsqueda en la etiqueta correspondiente y todos sus descendientes devolviendo todas las coincidencias con el filtro dado.



In [6]:
# Ejemplo
page = requests.get("https://datolok.github.io/python-edx/webscrapping/simple.html")
soup = BeautifulSoup(page.content, 'html.parser')

In [8]:
all_p_tags = soup.find_all('p')
all_p_tags

[<p>Aquí tenemos un ejemplo de contenido para esta página.</p>,
 <p class="inner-text">
         Este es el primer párrafo.
       </p>,
 <p class="inner-text">
         Este es el contenido del segundo.
       </p>,
 <p class="outer-text">
 <b>
         Primero párrafo exterior.
       </b>
 </p>,
 <p class="outer-text">
 <b>
         El segundo párrafo exterior.
       </b>
 </p>]

In [11]:
element = all_p_tags[0]
element

<p>Aquí tenemos un ejemplo de contenido para esta página.</p>

In [12]:
all_p_class_tags = soup.find_all('p', class_='outer-text')
all_p_class_tags

[<p class="outer-text">
 <b>
         Primero párrafo exterior.
       </b>
 </p>,
 <p class="outer-text">
 <b>
         El segundo párrafo exterior.
       </b>
 </p>]

In [13]:
all_class_tags = soup.find_all(class_='outer-text')
all_class_tags

[<p class="outer-text">
 <b>
         Primero párrafo exterior.
       </b>
 </p>,
 <p class="outer-text">
 <b>
         El segundo párrafo exterior.
       </b>
 </p>]

In [14]:
id_tag = soup.find_all(id='first')
id_tag

[]

Retomando y expandiendo el ejemplo anterior, realizamos la búsqueda de diferentes elementos bajo diferentes criterios:
* En el bloque 1, se realiza la búsqueda de todos los elementos `<p>` que se encuentran en la página web.
* En el bloque 2, se realiza la búsqueda de todos los elementos `<p>` que además pertenecen a la clase “outer-text”.
* En el bloque 3, se realiza la búsqueda de todos los elementos que pertenecen a la clase “outer-text” sin importar la etiqueta.
* En el bloque 4, se realiza la búsqueda del elemento con el id “first”. De acuerdo con las reglas establecidas por HTML, sólo debe haber un elemento con un id dado.

## 1.5 Navegando a través de los elementos en Beautiful Soup

En ciertas situaciones, debido a la estructura de la página HTML o el tipo de información que se desea extraer, utilizar los métodos de búsqueda no es suficiente para aislar el elemento de interés. Para ello, BeautifulSoup permite poder explorar los elementos que componen al documento web de forma directa.

Existen diferentes métodos para poder navegar el árbol creado al interpretar la página web pero para el objetivo particular de explorar y adentrarnos en la estructura utilizaremos `children`. Este atributo ofrece como resultado una lista de los elementos contenidos por el objeto que ejecutó la función.

In [15]:
page = requests.get("https://datolok.github.io/python-edx/webscrapping/simple.html")
soup = BeautifulSoup(page.content, 'html.parser')

In [16]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Una página web simple</title>
 </head>
 <body>
 <p>Aquí tenemos un ejemplo de contenido para esta página.</p>
 <div>
 <p class="inner-text">
         Este es el primer párrafo.
       </p>
 <p class="inner-text">
         Este es el contenido del segundo.
       </p>
 </div>
 <p class="outer-text">
 <b>
         Primero párrafo exterior.
       </b>
 </p>
 <p class="outer-text">
 <b>
         El segundo párrafo exterior.
       </b>
 </p>
 </body>
 </html>,
 '\n']

En este código recuperamos la página que se utilizó en la unidad anterior y se imprimen la lista de los elementos hijos del objeto principal. La información de la página está contenida dentro del tag `<html>`.`

En este ejemplo, es el tercer elemento el cual se puede acceder y almacenar de la siguiente manera:

In [17]:
html = list(soup.children)[2]
html

<html>
<head>
<title>Una página web simple</title>
</head>
<body>
<p>Aquí tenemos un ejemplo de contenido para esta página.</p>
<div>
<p class="inner-text">
        Este es el primer párrafo.
      </p>
<p class="inner-text">
        Este es el contenido del segundo.
      </p>
</div>
<p class="outer-text">
<b>
        Primero párrafo exterior.
      </b>
</p>
<p class="outer-text">
<b>
        El segundo párrafo exterior.
      </b>
</p>
</body>
</html>

Con el contenido del tag `<html>` aislado, se pueden inspeccionar los elementos utilizando nuevamente el atributo “children”. Este proceso se puede realizar de manera sucesiva hasta llegar al elemento de interés.

In [20]:
list(html.children)

['\n',
 <head>
 <title>Una página web simple</title>
 </head>,
 '\n',
 <body>
 <p>Aquí tenemos un ejemplo de contenido para esta página.</p>
 <div>
 <p class="inner-text">
         Este es el primer párrafo.
       </p>
 <p class="inner-text">
         Este es el contenido del segundo.
       </p>
 </div>
 <p class="outer-text">
 <b>
         Primero párrafo exterior.
       </b>
 </p>
 <p class="outer-text">
 <b>
         El segundo párrafo exterior.
       </b>
 </p>
 </body>,
 '\n']

In [21]:
body = list(html.children)[3]
print("body:", body, "\n")

body: <body>
<p>Aquí tenemos un ejemplo de contenido para esta página.</p>
<div>
<p class="inner-text">
        Este es el primer párrafo.
      </p>
<p class="inner-text">
        Este es el contenido del segundo.
      </p>
</div>
<p class="outer-text">
<b>
        Primero párrafo exterior.
      </b>
</p>
<p class="outer-text">
<b>
        El segundo párrafo exterior.
      </b>
</p>
</body> 



In [22]:
p = list(body.children)[1]
print("text:", p.get_text())

text: Aquí tenemos un ejemplo de contenido para esta página.


Utilizando esta técnica se aísla el contenido del primer tag `<p>` de la página. El contenido final se obtiene con el método `get_text()`.

El atributo children es el de mayor enfoque en esta unidad ya que el flujo natural en la extracción de un elemento en un documento HTML es comenzar por los elementos superiores e ir descendiendo hasta ubicar la etiqueta de interés. Sin embargo, en ciertas situaciones puede resultar más útil y práctico comenzar en una ubicación distinta y proceder a partir de este. Para ello se cuenta con otros métodos para poder navegar dentro de la estructura:
* `.parent`: este atributo devuelve el elemento inmediatamente superior al de referencia.
* `.next_siblin` y `.previous_sibling`: estos dos atributos permiten moverse de forma horizontal con el elemento previo y posterior, respectivamente, en relación al elemento de referencia.

## 1.6 Iterando sobre los elementos en Beautiful Soup

Hasta el momento se han visto dos principales maneras de cómo se puede utilizar el árbol jerárquico producido por BeautifulSoup en base a una página web: utilizando métodos de búsqueda, y navegando manualmente por los elementos, cada uno con sus ventajas y desventajas. Sin embargo, podemos utilizar un enfoque intermedio entre estos dos extremos y es el de utilizar métodos de iteración sobre los elementos. De esta forma podemos tener la ventaja de la flexibilidad de la búsqueda, pero con el poder de ajustar la selección de los elementos de forma manual.

Para lograr este objetivo, BeautifulSoup cuenta con diferentes herramientas y métodos, siendo uno de ellos el atributo `descendants`. Su comportamiento es similar al de `children` pero no solo se limita a los elementos inmediatos, si no que enlista todos los elementos, es decir, los hijos, los hijos de los hijos, etc.

In [23]:
page = requests.get("https://datolok.github.io/python-edx/webscrapping/simple.html")
soup = BeautifulSoup(page.content, 'html.parser')

In [24]:
for item, element in enumerate(soup.descendants):
     print("Element {}: \n {}".format(item, element))

Element 0: 
 html
Element 1: 
 

Element 2: 
 <html>
<head>
<title>Una página web simple</title>
</head>
<body>
<p>Aquí tenemos un ejemplo de contenido para esta página.</p>
<div>
<p class="inner-text">
        Este es el primer párrafo.
      </p>
<p class="inner-text">
        Este es el contenido del segundo.
      </p>
</div>
<p class="outer-text">
<b>
        Primero párrafo exterior.
      </b>
</p>
<p class="outer-text">
<b>
        El segundo párrafo exterior.
      </b>
</p>
</body>
</html>
Element 3: 
 

Element 4: 
 <head>
<title>Una página web simple</title>
</head>
Element 5: 
 

Element 6: 
 <title>Una página web simple</title>
Element 7: 
 Una página web simple
Element 8: 
 

Element 9: 
 

Element 10: 
 <body>
<p>Aquí tenemos un ejemplo de contenido para esta página.</p>
<div>
<p class="inner-text">
        Este es el primer párrafo.
      </p>
<p class="inner-text">
        Este es el contenido del segundo.
      </p>
</div>
<p class="outer-text">
<b>
        Primero p

En este código se carga la página que se ha utilizado de ejemplo y se imprimen todos los elementos contenidos por medio de un ciclo for. Esto se puede combinar con otros conceptos, como la de expresiones regulares, para identificar palabras claves o patrones de información.

Este proceso de búsqueda dentro de un elemento en particular puede aplicarse al resultado de otros procesos como el de búsqueda o navegación.


In [25]:
for p in soup.find_all("p"):
    if "contenido" in p.get_text():
        print(p.get_text())

Aquí tenemos un ejemplo de contenido para esta página.

        Este es el contenido del segundo.
      


En este código se encuentran todos los elementos de tipo párrafo `<p>` en el documento, se iteran sobre todos los resultados y se imprimen aquellos que contengan la palabra “contenido”.

Igualmente, no estamos limitados a solamente definir nuestro criterio de selección en la iteración con el contenido del texto, también podemos acceder a los atributos de los elementos utilizando el método `get()`.


In [26]:
for p in soup.find_all("p"):
    if p.get("class") and ("outer-text" in p.get("class")):
        print(p.get("class"),p.get_text())

['outer-text'] 

        Primero párrafo exterior.
      

['outer-text'] 

        El segundo párrafo exterior.
      



En este caso se verifica que los elementos de párrafo encontrados contengan el atributo “class” y que contenga “outer-text” como valor.