# Web Scraping with BeautifulSoup

### Additional free courses:

Introduction to Python programming:
https://academy.zenva.com/product/python-101-introduction-to-programming/?zva_src=stackskills

Learn to code in HTML and CSS:
https://academy.zenva.com/product/learn-to-code-in-html-and-css/?zva_src=stackskills

## Introducción al 'Web Scraping' 

### ¿Qué es Web Scraping?

*Web scraping* es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la **World Wide Web** ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

*Web scraping* es el proceso de recopilar información de forma automática de la Web. Es un campo con desarrollos activos, compartiendo un propósito en común con la visión de la **Web semántica**. Utiliza soluciones prácticas basadas en tecnologías existentes que son comúnmente ad hoc.

Ref: *https://es.wikipedia.org/wiki/Web_scraping*

Los pasos recomendados son:
1. Obtener información de una página Web. Analizar la técnica de extracción de datos.
2. Recuperar datos y enviar un archivo. Ejecutar comandos para extraer sólo los datos deseados, y luego elegir el formato y guardar esta en un archivo.
3. Seleccionar datos. Recorrer la página y seleccionar los datos.
4. Parsear datos. Meterse en la página para extraer los datos.
5. Almacenar datos. Los datos extraídos se almacenan en variables y finalmente en un archivo.

Los temas a cubrir son:
1. Bajar e instalar *'Beautiful Soup'*.
2. Inspeccionar una página *Web*.
3. *Scraping Data*.
4. Recorrer los datos en bruto y extraer los datos relevantes.
5. *Sanitize Input* (Limpiar la entrada).
6. Guardar en un archivo CSV.
7. Lectura de archivos locales.
8. Lectura de datos no-tabulares.

## Instalar *BeautifulSoup*

Abrir el *'Command Prompt'* (cmd.exe), y digitar el comando *'pip install beautifulsoup4'* si **pip** está instalado o en su defecto *'python -m pip install beautifulsoup4'*. Ejecutar y dejar que se instalen las librerías.

Para verificar la última versión visitar **https://pypi.org/project/beautifulsoup4/**.

## Inspeccionar una página

Para inspeccionar una *página web* y analizar el código **HTML** detrás de esta se utiliza la herramienta del navegador que se llama *'Inspect'* o *Inspeccionar*. En **Chrome** se localiza al dar click derecho sobre la página y luego seleccionar en el menú contextual *'Inspect'* (Ctrl + Shift + I).

## Scraping Web Pages

Pasos generales:
1. Importar las librerías necesarias al *'Notebook'*.

In [1]:
from bs4 import BeautifulSoup as soup

from urllib.request import urlopen

2. Obtener los datos de la página completa.
 - Definir la ruta de la página.
 - Abrir una conexión a la página con *urlopen()*.
 - Leer la página y almacenarla en una variable.
 - Cerrar la conexión.

In [2]:
bccrMonex_url = 'https://gee.bccr.fi.cr/indicadoreseconomicos/Cuadros/frmVerCatCuadro.aspx?CodCuadro=748&Idioma=1&FecInicial=2017/01/01&FecFinal=2018/12/31'

bccrMonex_data = urlopen(bccrMonex_url)
bccrMonex_html = bccrMonex_data.read()
bccrMonex_data.close()

3. Read HTML data using a BeautifulSoup method, return the page in a readable method. The 'soup' method is a very useful and common method to pulls web scraping data. Receives 2 parameters:
 - The raw html data: 'bccrMonex_html'.
 - The data format: 'html.parser'.

In [3]:
page_soup = soup(bccrMonex_html, 'html.parser')

print(page_soup)

<html>
<head><title>Tipo de cambio promedio MONEX</title>
<script type="text/javascript">var _gaq = _gaq || [];_gaq.push(['_setAccount', 'UA-25040215-3']);_gaq.push(['_trackPageview']);(function() {var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);})();</script>
<script language="javascript">

var lc_js_filas748 = 0;
var lc_js_opentip  = "Mostrar jerarquía";
var lc_js_closetip = "Ocultar jerarquía";
var lc_js_colwidth = "100";
var lc_js_hdrwidth = "250";
var lc_js_idiom    = "spanish";
var lc_js_url      = "https://gee.bccr.fi.cr/indicadoreseconomicos/Cuadros/frmVerCatCuadro.aspx?CodCuadro=748&Idioma=1";
var lc_js_chg_lng  = "https://gee.bccr.fi.cr/indicadoreseconomicos/Cuadros/frmVerCatCuadro.aspx?CodCuadro=748&Idioma=2";

function js_doGoSea

4. Una vez con el código HTML capturado en la variable se debe recorrer el código y extraer el contenido de las etiquetas de interés. Se puede buscar la primera etiqueta HTML por nombre así:

In [4]:
print(page_soup.link)

<link href="../estilos/estilos.css" rel="stylesheet" type="text/css"/>


In [5]:
print(page_soup.span)

<span class="Titulo">Tipo de cambio promedio MONEX</span>


O se pueden recuperar el contenido de todas las etiquetas presentes usando los métodos tales como '.findAll', '.find', o '.next', y dentro de *'{...}'* un identificador de la etiqueta. 

In [6]:
bccrMonex_tablas = page_soup.find_all('table', {'id' : 'Table748'})

print(bccrMonex_tablas)

[<table border="0" bordercolordark="LightSteelBlue" bordercolorlight="#FFFFFF" cellpadding="0" cellspacing="0" id="Table748" onclick="exposeTable(event, 'Table748');" onmouseout="chngto(event,'link');" onmouseover="chngto(event,'hover');" style="border-style: None" width="465">
<tr style="background-color:#0C365E">
<td align="middle" nowrap="" valign="center" width="15"> 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr style="background-color:#0C365E">
<td width="250"><p> </p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2017</p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2018</p></td>
</tr>
</table>
</span>
</td>
</tr>
<tr>
<td align="middle" nowrap="" valign="top" width="15">
                 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td class="celda748" width="250">
<p> 1 Ene  </p>
</td>
<td align="right" class="

In [7]:
print(len(bccrMonex_tablas))

1


Como el método usando **'table'** sin el identificador devuelve 374 instancias, lo que no parece ser de mucha ayuda, particularmente porque la tabla con los datos no es identificable por un factor relevante. Pero usando el **'id = celda748'** se logra aislar la tabla con los datos requeridos.

Otra opción es recuperar las celdas de la clase **'class = celda748'** que puede ser más útil dado que se pueden alcanzar los datos de la tabla con mayor facilidad. Así que este método puede funcionar mejor:

In [8]:
bccrMonex_celdas = page_soup.find_all('td', {'class' : 'celda748'})

for celda in bccrMonex_celdas[0:9]:
    print(celda.text)
    print('----------')

2017
----------
2018
----------

 1 Ene  

----------

0,00

----------

0,00

----------

 2 Ene  

----------

556,06

----------

569,80

----------

 3 Ene  

----------


Sin embargo los datos se extraen en un solo arreglo con todos los datos en cola. Así que reconstruir la tabla por columnas puede ser más problemático.

Otra opción es recuperar de la tabla aislada las filas solamente **'<tr></tr>'**, así: 

## Extraer y limpiar los datos relevantes

Ordenar el código HTML de los datos de la tabla. Sorting HTML Table Data. Los pasos para ordenar los datos son:
1. Seleccionar los datos que se ocupan. 
 - Primero aislo en una nueva variable la tabla de los datos.
 - Luego busco nuevamente las etiquetas pero de filas.

Guardar la tabla que contiene los datos relevantes del arreglo de tablas extraídas del código HTML en bruto. Luego se extraen las filas de la tabla y se asignan a un arreglo de filas.

In [9]:
bccrMonex_tabla = bccrMonex_tablas[0]

bccrMonex_filas = bccrMonex_tabla.find_all('tr', {})

intFilas = len(bccrMonex_filas)

print(intFilas)

733


Despliegue de las filas para comprender su estructura HTML y así determinar la mejor manera de extraer los datos relevantes.

In [10]:
print(bccrMonex_filas[0])

print('[0]----------')

print(bccrMonex_filas[1])

print('[1]----------')

print(bccrMonex_filas[2])

print('[2]----------')

print(bccrMonex_filas[3])

print('[3]----------')

print(bccrMonex_filas[730])

print('[730]----------')

print(bccrMonex_filas[731])

print('[731]--------')

print(bccrMonex_filas[732].text)

print('[732]--------')

<tr style="background-color:#0C365E">
<td align="middle" nowrap="" valign="center" width="15"> 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr style="background-color:#0C365E">
<td width="250"><p> </p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2017</p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2018</p></td>
</tr>
</table>
</span>
</td>
</tr>
[0]----------
<tr style="background-color:#0C365E">
<td width="250"><p> </p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2017</p></td>
<td align="right" class="celda748" style="color:white" width="100"><p>2018</p></td>
</tr>
[1]----------
<tr>
<td align="middle" nowrap="" valign="top" width="15">
                 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td class="celda748" width="250">
<p> 1 Ene  </p>
</td>
<td align="right" class="celda748"

En este despliegue se descubre que las filas se recuperaron duplicadas. Ver fila 1 y 2, 2 y 3, o 730 y 731, además la última fila (732) no tiene datos relevantes por lo que se debe desechar. También queda claro que cada fila tiene una serie de celdas anidadas, pero las que contienen los datos relevantes son aquellas cuya clase es **'celda748'**. 

El siguiente paso es realizar una prueba de recuperación de una celda con datos relevantes y entender como los datos se están recuperando. 

In [25]:
bccrMonex_celdas_fl = bccrMonex_filas[2].find_all('td', {'class' : 'celda748'})

bccrMonex_celdas_txt = []

for celda in bccrMonex_celdas_fl:
    bccrMonex_celdas_txt.append(celda.text)

print(bccrMonex_celdas_txt)

['\n\xa01 Ene  \n', '\n0,00\n', '\n0,00\n']


Esta prueba demuestra que los datos vienen con mucha basura al ser extraídos, y requerirá una limpieza de datos.

#### Encabezados de la tabla  

Lo primero es recuperar los encabezados 

In [26]:
bccrMonex_header = bccrMonex_filas[1].find_all('td', {})

bccrMonex_header_txt = []

for celda in bccrMonex_header:
    bccrMonex_header_txt.append(celda.text[:])
    
print(bccrMonex_header_txt)

['\xa0', '2017', '2018']


#### Recuperar sólo las filas de datos 

Se eliminan el encabezado, la última fila, y las filas dobles.

In [13]:
bccrMonex_filas_datos = []

intLineas = len(bccrMonex_filas) - 1

for i in range(2, intLineas, 2):
    bccrMonex_filas_datos.append(bccrMonex_filas[i])

#bccrMonex_filas[2 : -1]

print(bccrMonex_filas_datos[0])

print('- - - - - - - - - -')

print(bccrMonex_filas_datos[1])

print('- - - - - - - - - -')

print(bccrMonex_filas_datos[2])

print('- - - - - - - - - -')

print(bccrMonex_filas_datos[len(bccrMonex_filas_datos) - 1])

<tr>
<td align="middle" nowrap="" valign="top" width="15">
                 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td class="celda748" width="250">
<p> 1 Ene  </p>
</td>
<td align="right" class="celda748" width="100">
<p>0,00</p>
</td>
<td align="right" class="celda748" width="100">
<p>0,00</p>
</td>
</tr>
</table>
</span>
</td>
</tr>
- - - - - - - - - -
<tr>
<td align="middle" nowrap="" valign="top" width="15">
                 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td class="celda748" width="250">
<p> 2 Ene  </p>
</td>
<td align="right" class="celda748" width="100">
<p>556,06</p>
</td>
<td align="right" class="celda748" width="100">
<p>569,80</p>
</td>
</tr>
</table>
</span>
</td>
</tr>
- - - - - - - - - -
<tr>
<td align="middle" nowrap="" valign="top" width="15">
                 
            </td>
<td align="left">
<span>
<table border="0" cellpadding="0

2. Iterar a través de las filas y agregar cada una a un arreglo.
 - Además limpiar los datos mientras se recorre y recupera la tabla en bruto, en este caso la celda de fecha es recuperada así **'\xa01 Ene    \n'** y debe ser depurada para que sólo quede **'01 Ene'**, mientras que las restantes celdas de la fila no se recuperan con esos caracteres.
 - Sin embargo se debe cambiar la ',' por un '.' en los datos numéricos de cada fila.

In [23]:
# bccrMonex_filas[2]
# Declaración del arreglo para almacenar el encabezado y las filas
bccrMonex_tabla_datos = []

# Recorrer las filas del arreglo que sólo tiene las filas con datos útiles
for fila in bccrMonex_filas_datos[0:6]:
    bccrMonex_celdas_txt = []
    celdas = fila.find_all('td', {'class' : 'celda748'})
    # Recorrer las celdas dentro de la fila, capturar sólo el texto y añadir a
    # un arreglo temporal.
    for celda in celdas:
        # Eliminar el caracter de línea nueva mientras se recorren las filas
        bccrMonex_celdas_txt.append(celda.text[1:-1].replace(',','.'))
    # Eliminar los espacios al final de las celdas de fechas
    strCeldaCero = bccrMonex_celdas_txt[0]
    strCeldaCero = strCeldaCero.rstrip()
    # Elimina caracter oculto al inicio del string de la fecha
    bccrMonex_celdas_txt[0] = strCeldaCero[1:]
    bccrMonex_tabla_datos.append(bccrMonex_celdas_txt)
    #print(bccrMonex_celdas_txt)
    #bccrMonex_celdas_txt.clear()
    #print(bccrMonex_tabla_datos)

print(bccrMonex_tabla_datos)

[['1 Ene', '0.00', '0.00'], ['2 Ene', '556.06', '569.80'], ['3 Ene', '556.86', '570.00'], ['4 Ene', '557.25', '570.64'], ['5 Ene', '557.43', '570.46'], ['6 Ene', '557.55', '0.00']]


In [22]:
bccrMonex_tabla_datos[0][0]

'1 Ene'

In [24]:
bccrMonex_tabla_datos[0]

['1 Ene', '0.00', '0.00']

## Salvaguardado de los datos recuperados

Prueba de creación y llenado del archivo '.csv' con el arreglo que contiene  6 filas.

In [43]:
newFile = open("bccrMonex_Tabla_Final_Datos.csv", "w")

# Recuperar el valor literal de los encabezados y escribirlos en el csv.
# OJO: Al usar '\\n' para agregar un final de línea, este pasa literal al archivo
# y no se agregar el salto de línea del todo.
strHeaderCSV = 'Dia,' + bccrMonex_header_txt[1] + ',' + bccrMonex_header_txt[2] + '\n'
#print(strHeaderCSV)
newFile.write(strHeaderCSV)
#newFile.write('Día,2017,2018\n')

# Recuperar el valor literal de las celdas por fila y escribir una a una en el csv.
for fila_datos in bccrMonex_tabla_datos:
    strLineaCSV = ''
    for strCelda in fila_datos:
        strLineaCSV += strCelda + ','
    strLineaCSV = strLineaCSV[:-1] + '\n'
    #print('L: ', strLineaCSV)
    #newFile.writelines(strLineaCSV)
    newFile.write(strLineaCSV)

newFile.close()

print('¡¡Archivo guardado correctamente!!')

¡¡Archivo guardado correctamente!!


In [None]:
print(bccrMonex_filas_datos[0]).stop

print('- - - - - - - - - -')

print(bccrMonex_filas_datos[1])

print('- - - - - - - - - -')

print(bccrMonex_filas_datos[len(bccrMonex_filas_datos) - 1])

3. Almacenar los datos en arreglos/vectores.

# Otro ejemplo de 'Web Scraping'

Ref: https://www.dataquest.io/blog/web-scraping-beautifulsoup/