<p>
<font size='5' face='Georgia, Arial'>IIC2115 - Programación como herramienta para la ingeniería</font><br>
</p>

# Herramientas para Python

## 1.- Web Scrapping

En este capítulo haremos una introducción a ***Web Scrapping***. Este es el proceso de extraer información de sitios web. El scraping de datos se enfoca en transformar el contenido no estructurado de un sitio web (usualmente HTML) en datos estructurados los que pueden ser almacenados en una base datos, en una hoja de cálculo o en el mismo código.

La forma en que los datos son extraídos de un sitio web es similar a la utilizada por los bots de búsqueda - la navegación web humana es simulada utilizando programas (bots) los que extraen (scrape) los datos de un sitio web.






### 1.1.-Tipos de páginas Web

A la hora de hacer scrapping en páginas web, es importante distinguir cómo está construida y alojada la información. Esta puede estar contenida directamente en el html (estática) o puede ser generada por alguna incrustación dinámica dentro del html como un javaScript (dinámica).

La información estática es de más facil acceso ya se encuentra contenida directamente en el html y es en la que profundizaremos. 

Si necesita trabajar con páginas web deinámicas es recomendable investigar la librería `Selenium` de Python. Esta permite simular un usuario que interactúa en una página web donde se permite la recolección de datos.

### 1.2.- Aplicación con Beatiful Soup

Para el caso de realizar Web Scrapping en páginas que són estáticas se recomienda el uso de la librería `Beatiful Soup`. Con esta librería desarrollaremos el siguiente ejemplo.

Suponga que se requiere desarrollar una aplicación que permita conocer el valor de la UTM en todo momento. Para conocer dicho valor podemos basarnos en el que publica la web "prensa digital" [aqui](https://www.prensadigital.cl/valor-utm-unidad-tributaria-mensual.html).









#### PASO 1: Conocer y familiarizarse con la web

Es fuertemente recomendable que utilicen el navegador Google Chrome para abrir la url. Una vez abierta, debe seleccionar el valor del dolar y con click secundario selecciones "inspeccionar elemento". Ahora podrán ver el código de la pagina web y familiarizarse con ella.

#### PASO 2: Descargar el html

Ahora utilizaremos la librería urllib para simular un navegador y descargar el código fuente de la página:

In [3]:
import urllib.request as net
import ssl

class WebDownloader:
    
    def __init__(self, link):
        self.user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'
        self.url =  link
        
        
    def getHtmlAsString(self):
        headers = {'User-Agent':self.user_agent}
        request= net.Request(self.url,None,headers)
        gcontext = ssl.SSLContext()
        response = net.urlopen(request,context=gcontext)
        return response.read().decode('utf-8')
    
wd = WebDownloader('https://www.prensadigital.cl/valor-utm-unidad-tributaria-mensual.html')
sourceCode = wd.getHtmlAsString()
print(sourceCode)

<!DOCTYPE html><html class="no-js" lang="es"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><link rel="profile" href="https://gmpg.org/xfn/11"/><title>Valor UTM - Unidad Tributaria Mensual - Prensa Digital</title><meta name="description" content="Valor Unidad Tributaria Mensual (UTM). Calculadora de UTM a pesos chilenos. Conversor de UTM. Esta unidad es utilizada en Chile para efectos tributarios." /><link rel="canonical" href="https://www.prensadigital.cl/valor-utm-unidad-tributaria-mensual.html" /><meta property="og:locale" content="es_ES" /><meta property="og:type" content="article" /><meta property="og:title" content="Valor UTM - Unidad Tributaria Mensual - Prensa Digital" /><meta property="og:description" content="Valor Unidad Tributaria Mensual (UTM). Calculadora de UTM a pesos chilenos. Conversor de UTM. Esta unidad es utilizada en Chile para efectos tributarios." /><meta property="og:url" content="https://www.prensadigital.cl/v

### PASO 3: Buscar el valor solicitado

Al revisar el código fuente, es posible notar que el valor de la UTM se encuentra dentro del archivo que acabamos de descargar. En este caso basta con "jugar" con el string descargado para poder obtener el valor buscado.

Pero existe una forma un poco más directa. Si luego de la inspección de elemento en Google Chrome, seleccionamos el valor buscado y vemos el nodo en el que está contenido. En este caso lo vemos en:

`<td>48.016</td>`

esta dentro del nodo "td", en este caso podemos acceder a todos los nodos con ese nombre



In [5]:
import bs4

info = []

soup = bs4.BeautifulSoup(sourceCode)

for node in soup.findAll('td'):
    info.append(str(u''.join(node.findAll(text=True)).encode('utf-8'))[2:-1])


In [6]:
print(info)

['1 UTM', '48.741', '5 UTM', '243.705', '10 UTM', '487.410', '50 UTM', '2.437.050', '100 UTM', '4.874.100', '1000 UTM', '48.741.000', '10000 UTM', '487.410.000', '100000 UTM', '4.874.100.000', '1', '0,00 UTM', '5', '0,00 UTM', '10', '0,00 UTM', '50', '0,00 UTM', '100', '0,00 UTM', '1.000', '0,02 UTM', '10.000', '0,21 UTM', '100.000', '2,05 UTM']


En este caso vemos como apuntaba a la tabla de la web.

### PASO 4: Mostrar la información

In [7]:
print("El valor actual de la UTM es: {}".format(info[1]))

El valor actual de la UTM es: 48.741


Funciona!. 

En general Web Scrapping es a medida. Es decir, deben desarrollarse distintas herramientas en función de las necesidades. Documentarse correctamente es fundamental. 

**Consejo**: Busque el uso de XPath