# Extracción de datos web (_Web scrapping_)  

Ante la generación masiva a traves de la red es importante tener herramientas que permitan la extracción de datos a partir de fuentes cuya ubicación es esta. De esto se trata el _web scrapping_.  

Se pueden tener elementos poco especificos mediante las mismas alternativas del procesamiento de texto para algunos casos, sin embargo esto no siempre será efectivo ni eficiente. Por ejemplo, podemos usar `wget` para descargar una página y hacer la búsqueda de elementos `html` en ella por medio de expresiones regulares, pero la descarga de la página implica que el contenido debio ser estatico. Igualmente, las expresiones regulares no son la mejor herramienta siempre, y es más eficiente usar elementos especialmente diseñados para recorrer la estructura html sin depender de la generación de expresiones de coincidencia sino obedeciendo exclusivamente a los patrones que ya sabemos que existirán por defecto.  

## Herramientas (en python)

Para esta labor contamos con algunas herramientas como lo son:  

+ `urllib`: Modulo incluido en python para la recuperación de contenido de una url.  
+ `webbrowser`: Modulo incluido en python para la apertura de url's en una instancia del navegador predefinido.  
+ `html`: Modulo incluido en python para el analisis sintactico html.  
+ Request: Reemplazo externo para `urllib` con mayores caracteristicas.  
+ Beautiful Soup: Reemplazo externo para `html` con mayores caracteristicas.  
+ Selenium: Reemplazo externo para `webbrowser` con mayores caracteristicas.  
+ Wget: _Port_ de `wget` para python.  

## Instalar requisitos

Primero que todo, partimos que ya tenemos instalado al menos un navegador (firefox por defecto en la mayor parte de las distribuciones linux). Se puede trabajar con otros navegadores, y es de especial interes PhantomJS, una opción de navegador que no genera interface gráfica, ideal para pruebas o automatización (en caso de ser molesto que el navegador se vea abrir y cerrar, etc...).  

    pip install selenium beautifulsoup4 Requests

## Aplicando

In [19]:
import webbrowser

In [3]:
webbrowser.open('http://github.com/')

True

In [5]:
import requests
res = requests.get('http://www.gutenberg.org/files/18251/18251-0.txt')
res.status_code == requests.codes.ok # Validar código 200 (ok)
type(res)
len(res.text)
print(res.text[:250])

﻿Project Gutenberg's Latin for Beginners, by Benjamin Leonard D'Ooge

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project G


In [15]:
res = requests.get('http://github.com/yomeinventoesto')
res.raise_for_status()

HTTPError: 404 Client Error: Not Found for url: https://github.com/yomeinventoesto

In [18]:
res = requests.get('http://www.programmableweb.com/sites/default/files/github-jupyter.jpg')
archivo_imagen = open('github-jupyter.jpg', 'wb')
for bloques in res.iter_content(100000):
    archivo_imagen.write(bloques)
archivo_imagen.close()

![github jupyter](github-jupyter.jpg)

In [20]:
import bs4

In [57]:
res = requests.get('https://github.com/cosmoscalibur/herramientas_computacionales')
gh = bs4.BeautifulSoup(res.text, "lxml") # tambien es posible desde un archivo abierto
type(gh)

bs4.BeautifulSoup

In [51]:
tabla_archivos = gh.find_all('td', {'class':'content'})
type(tabla_archivos)

bs4.element.ResultSet

In [52]:
len(tabla_archivos)

23

In [53]:
print(tabla_archivos)

[<td class="content" colspan="3">Failed to load latest commit information.</td>, <td class="content">
<span class="css-truncate css-truncate-target"><a class="js-navigation-open" href="/cosmoscalibur/herramientas_computacionales/blob/master/.gitignore" id="a084b794bc0759e7a6b77810e01874f2-8cec0970c2bcc6a64ca702e6ace3072bec1db708" title=".gitignore">.gitignore</a></span>
</td>, <td class="content">
<span class="css-truncate css-truncate-target"><a class="js-navigation-open" href="/cosmoscalibur/herramientas_computacionales/blob/master/Git.ipynb" id="c24916e53ed7ca5bfbd5552ec60b9864-c89b09c88c856d8d41558fa24d8da697173a834c" title="Git.ipynb">Git.ipynb</a></span>
</td>, <td class="content">
<span class="css-truncate css-truncate-target"><a class="js-navigation-open" href="/cosmoscalibur/herramientas_computacionales/blob/master/Jupyter%20Notebook%20Basico.ipynb" id="56994abf3c173eef1f731f415a113e73-649ceea4101089ff2d9e22c518e09e713604115a" title="Jupyter Notebook Basico.ipynb">Jupyter Note

In [104]:
for content in tabla_archivos:
    lineas_a = content('a')
    if lineas_a:
        print(lineas_a[0].string)

.gitignore
Git.ipynb
Jupyter Notebook Basico.ipynb
Jupyter Notebook Intermedio.ipynb
LICENSE
LaTeX_basico.pdf
LaTeX_basico.tex
Linux Bash.ipynb
Linux Basico.ipynb
README.md
Taller 2.ipynb
Taller_1.ipynb
Taller_2b.ipynb
algebra_computacional.ipynb
datos_abiertos.md
historial_talleres.md
hoja_de_ruta.md
jupyter.png
parcial_20162.ipynb
presentacion_herramientas.md
presentacion_herramientas.pdf
procesamiento_de_texto.ipynb


In [111]:
from selenium import webdriver

In [112]:
browser = webdriver.Chrome("/home/cosmoscalibur/Downloads/chromedriver")
browser.get('http://github.com')
username = browser.find_element_by_id("user[login]")
username.send_keys("cosmoscalibur@gmail.com")
dar_click = browser.find_element_by_link_text("privacy policy")
dar_click.click()
codigo = browser.page_source
print(codigo)

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml" lang="en" class=" is-copy-enabled is-u2f-enabled"><head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# object: http://ogp.me/ns/object# article: http://ogp.me/ns/article# profile: http://ogp.me/ns/profile#">
    <meta charset="utf-8" />
    <meta content="origin-when-cross-origin" name="referrer" />

    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/frameworks-4242846376d46c90f210115e02415cbb40cdaf46291ec9fff638250c75f1ce30.css" integrity="sha256-QkKEY3bUbJDyEBFeAkFcu0DNr0YpHsn/9jglDHXxzjA=" media="all" rel="stylesheet" />
    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/github-9077fcc535b78561667f9bdd5d347613c01c8dbe201b295f4421de92d8b25c6e.css" integrity="sha256-kHf8xTW3hWFmf5vdXTR2E8Acjb4gGylfRCHektiyXG4=" media="all" rel="stylesheet" />
    
    
    <link crossorigin="anonymous" href="https://assets-cdn.github.com/assets/site-783af31b5d8193281cc058ff5104b6ae774c

## Bibliografía

+ [How to fetch Internet Resources Using The urllib Package](https://docs.python.org/3/howto/urllib2.html).  
+ [Structured Markup Processing Tools](Structured Markup Processing Tools).  
+ [Internet Protocols and Support](https://docs.python.org/3/library/internet.html).  
+ Automate the boring stuff. [Chapter 11 – Web Scraping](https://automatetheboringstuff.com/chapter11/).  
+ [First web scraper](https://first-web-scraper.readthedocs.io/en/latest/#act-3-web-scraping).  
+ [HOW TO DOWNLOAD DYNAMICALLY LOADED CONTENT USING PYTHON](https://dvenkatsagar.github.io/tutorials/python/2015/10/26/ddlv/).  