## Propósito

La recolección de datos es una tarea crítica y de suma importancia para los analístis de datos. En algunos casos estos datos son de difícil acceso o de fuentes diversas, como internet, donde sería bastante tedioso extraer la información de manera manual.

El propósito del presente cuaderno es extraer datos de páginas web en un ejercicio sencillo de **web scrapping** usando la librería de Python `BeautifulSoup` y elementos básicos de HTML (Hypertext Markup Language).

In [1]:
#Librerías necesarias para web-scrapping básico

from IPython.core.display import HTML
from bs4 import BeautifulSoup
from IPython.display import IFrame
import urllib # librería necesaria para acceder a los sitios web
import pandas as pd # Se usará para almacenar información de los sitios Web

## HTML

HTML es un lenguaje de marcado empleado para la construcción de páginas web y aplicaciones;nosotros constantemente estamos en contacto con ella cada vez que navegamos por internet. Algunos puntos claves a tener en cuenta al trabajar con HTML son:

1. HTML es tradicionalmente usado en la construcción de sitios web estáticos (sin interacción)
2. HTML usa una estructura anidada con etiquetas para indicar como mostrar el contenido
3. HTML puede ser integrado con otros leguanjes de programación
5. HTML puede ser creado usando cualquier editor de texto

Algunas de las etiquetas más populares, o útiles son:

1. < html > Indica que el sitio web esta escrito en formato HTML
2. < head > Encabezado
3. < title > Título en la barra de herramientas cuando es añadida a favoritos
4. < body > Define el bloque cuerpo del sitio web, el cuál muestra el contenido del sitio web
5. < p > Defines un párrafo que contiene texto que se le mostrará al ususario
6. < a > Define un hipervénculo 
7. < h1 > Define un título de primer nivel 
8. < h2 > Define un título de segundo nivel
9. < br > Define salto de línea

A continuación se muestra un ejemplo de estas etiquetas y como se verían

In [6]:
custom_html_doc = """
<html>
<head>
<title>HTML Page Title</title>
</head>
<h1> Encabezado: Título de primer nivel</h1>
<br>
<h2> Título de segundo nivel</h2>
<body>
<p class="title"><b>Párrafo: Noticias</b></p>
<p class="story"> Algunas noticias de las últimas semanas son
<a href="https://www.bbc.com/news/av/world-us-canada-51230018" target="_blank" class="stock" id="link1">DUK</a>,
<a href="https://https://www.bbc.com/news/world-us-canada-59006604" target="_blank" class="stock" id="link2">D</a>,
<a href="https://finance.yahoo.com/quote/exc/" target="_blank" class="stock" id="link3">EXC</a>,
<a href="https://finance.yahoo.com/quote/nee/" target="_blank" class="etf" id="link4">NEE</a>,
<a href="https://finance.yahoo.com/quote/so/" target="_blank" class="stock" id="link5">SO</a>,
presentadas por hipervínculos.</p>
<p class="details">Final del documento.</p>
"""

In [7]:
HTML(custom_html_doc)

## Uso de BeautifulSoup para navegar en documentos tipo HTML

BeautifulSoup es una librería de Python que transforma los documentos HTML en una estructura de árbol navegable. Es importante y útil para hacer que los documentos de HTML se puedan programar y analizar automáticamente. Su propósito es ofrecer una variedad de formas para buscar, editar y extraer información en documentos HTML

html.parse es la opción estándar para analizar una cadena de texto en HTML, igualmente, prettify() muestra la cadena analizada con la indentación incluida, lo que nos muestra como es la estructura que contemple BeautifulSoup

In [10]:
# Uso de html.parser para convertir el documento en una estructura de datos de BeautifulSoup
soup = BeautifulSoup(custom_html_doc, 'html.parser')

# Imprimir la estructura incluyendo la indentación
print(soup.prettify())

<html>
 <head>
  <title>
   HTML Page Title
  </title>
 </head>
 <h1>
  Encabezado: Título de primer nivel
 </h1>
 <br/>
 <h2>
  Título de segundo nivel
 </h2>
 <body>
  <p class="title">
   <b>
    Párrafo: Noticias
   </b>
  </p>
  <p class="story">
   Algunas noticias de las últimas semanas son
   <a class="stock" href="https://www.bbc.com/news/av/world-us-canada-51230018" id="link1" target="_blank">
    DUK
   </a>
   ,
   <a class="stock" href="https://https://www.bbc.com/news/world-us-canada-59006604" id="link2" target="_blank">
    D
   </a>
   ,
   <a class="stock" href="https://finance.yahoo.com/quote/exc/" id="link3" target="_blank">
    EXC
   </a>
   ,
   <a class="etf" href="https://finance.yahoo.com/quote/nee/" id="link4" target="_blank">
    NEE
   </a>
   ,
   <a class="stock" href="https://finance.yahoo.com/quote/so/" id="link5" target="_blank">
    SO
   </a>
   ,
presentadas por hipervínculos.
  </p>
  <p class="details">
   Final del documento.
  </p>
 </body>
</htm

In [12]:
# la variable soup ya es una estructura de datos de BeautifulSoup, por lo que se pueden aplicar algunos métodos.

tag = soup.a   # Muestra los elemento con la etiqueta a. Por defecto solo toma el primero

print(tag)
type(tag)

<a class="stock" href="https://www.bbc.com/news/av/world-us-canada-51230018" id="link1" target="_blank">DUK</a>


bs4.element.Tag

In [16]:
print("Tag's name: ", tag.name) #Nombre de la etiqueta.
print("Tag's text: ", tag.text) #Texto embebido en la etiqueta.
print("Tag's parent name: ", tag.parent.name) #Etiqueta padre. 

Tag's name:  a
Tag's text:  DUK
Tag's parent name:  p


Una etiqueta puede contener más de un atributo. Se puede acceder a ellos usando el método `attrs`

In [17]:
# Mostrar atributos
print(tag.attrs)

{'href': 'https://www.bbc.com/news/av/world-us-canada-51230018', 'target': '_blank', 'class': ['stock'], 'id': 'link1'}


### Extrar todas las etiquetas de un archivo

Anteriormente se mostró que era posible acceder a los elementos de una etiqueta, sin embargo solo se regresaba el primero de ellos. Para dar solución a este percance se puede usar la función `find_all`

In [19]:
print(soup.find_all("a"))

[<a class="stock" href="https://www.bbc.com/news/av/world-us-canada-51230018" id="link1" target="_blank">DUK</a>, <a class="stock" href="https://https://www.bbc.com/news/world-us-canada-59006604" id="link2" target="_blank">D</a>, <a class="stock" href="https://finance.yahoo.com/quote/exc/" id="link3" target="_blank">EXC</a>, <a class="etf" href="https://finance.yahoo.com/quote/nee/" id="link4" target="_blank">NEE</a>, <a class="stock" href="https://finance.yahoo.com/quote/so/" id="link5" target="_blank">SO</a>]


In [20]:
for tag in soup.find_all("a"):
    print(tag["href"])

https://www.bbc.com/news/av/world-us-canada-51230018
https://https://www.bbc.com/news/world-us-canada-59006604
https://finance.yahoo.com/quote/exc/
https://finance.yahoo.com/quote/nee/
https://finance.yahoo.com/quote/so/


## Importación de sitios web para analizar

In [29]:
# Scrape data from website
site_url = 'https://www.bbc.com/news/world-us-canada-59006604'
r = urllib.request.urlopen(site_url)
site_content = r.read().decode('utf-8-sig')

# Saving scraped HTML to .html file (for later processing)
with open('saved_page.html', 'w') as f:
    f.write(site_content)

# Use html.parser to create soup
s = BeautifulSoup(site_content, 'html.parser')

In [38]:
print(s.prettify()[:50]) # Solamente mostrar una porción del documento

<!DOCTYPE html>
<html class="no-js" lang="en-GB">



In [47]:
# Determinar el número de ocurrencias de una etiqueta en el documento. Se almacena como un diccionario

tag_list = []
for tag in s.find_all():
    tag_list.append(tag.name)

tag_count_list = {}
for tag in tag_list:
    if tag in tag_count_list:
        tag_count_list[tag] = tag_count_list[tag] + 1
    else:
        tag_count_list[tag] = 1
        
tag_count_list

{'html': 1,
 'head': 1,
 'meta': 30,
 'title': 1,
 'link': 6,
 'script': 48,
 'style': 2,
 'body': 1,
 'div': 220,
 'header': 2,
 'nav': 3,
 'a': 104,
 'span': 154,
 'svg': 23,
 'path': 23,
 'ul': 13,
 'li': 94,
 'button': 4,
 'main': 1,
 'article': 1,
 'h1': 1,
 'dl': 4,
 'dt': 4,
 'dd': 4,
 'time': 1,
 'p': 30,
 'b': 1,
 'iframe': 1,
 'i': 2,
 'aside': 4,
 'h2': 5,
 'noscript': 10,
 'img': 10,
 'footer': 1}

In [55]:
s.a.attrs

{'href': 'https://www.bbc.com',
 'class': ['ssrcss-6qes9f-NavigationLink-LogoLink', 'eki2hvo11']}

In [65]:
url = "https://www.eltiempo.com/"
doc = urllib.request.urlopen(url).read()
doc = doc.decode('utf-8-sig')