# Práctica Guiada - Web Scraping

### Primeros pasos en Web Scraping

Utilizaremos la librería `Requests` para hacer peticiones de páginas.

In [1]:
# Importamos la librería Requests
import requests

Probemos a ver un ejemplo del libro *Web Scraping with Python* de Mitchell Ryan. Vamos a usar varios ejemplos de este libro en está práctica.

In [2]:
url = 'http://pythonscraping.com/pages/page1.html'
resp = requests.get(url)

In [5]:
resp.content

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

Importemos ahora `BeautifulSoup`:

In [6]:
#!pip install bs4
from bs4 import BeautifulSoup

  'The soupsieve package is not installed. CSS selectors cannot be used.'


Transformamos el contenido del HTML en un objeto `BeautifulSoup`:

In [7]:
bsObj = BeautifulSoup(resp.content, 'html.parser')

In [8]:
bsObj.html

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>

Podemos extraer un tag, por ejemplo h1:

In [7]:
print(bsObj.h1)

<h1>An Interesting Title</h1>


Podemos quedarnos con el texto de h1:

In [8]:
bsObj.h1.get_text()

'An Interesting Title'

#### Manejo de errores y excepciones

En la web es habitual que los datos estén mal formateados, que los sitios web se caigan o que falten tags de cierre. Para evitar que la ejecución de nuestro código se interrumpa ante errores o formatos inesperados, es importante incluir un buen manejo de errores y excepciones.

Como ejemplo vamos a definir una función que trae el titulo de una página web, anticipando posibles errores:

In [9]:
def getTitle(url):
    try:
        resp = requests.get(url)
    except requests.ConnectionError as e:
        return None
    try:
        bsObj = BeautifulSoup(resp.content, 'html.parser')
        title = bsObj.body.h1
    except AttributeError as e:
        return None
    return title

In [10]:
title = getTitle("http://www.pythonscraping.com/exercises/exercise1.html")
#title = getTitle("http://www.pythonnnnscraping.com/exercises/exercise1.html")

In [11]:
if title == None:
    print("Title could not be found")
else:
    print(title)

<h1>An Interesting Title</h1>


### Parseo avanzado de HTML

In [12]:
url_wp = 'http://www.pythonscraping.com/pages/warandpeace.html'
resp_wp = requests.get(url_wp)

In [13]:
bsObjwp = BeautifulSoup(resp_wp.content, 'html.parser')

In [14]:
# Usamos el método bsObj.findAll(tagName, tagAttributes) para 
# obtener una lista con todos los tags de la página, no solamente el primero. 
 
nameList = bsObjwp.findAll("span", {"class":"green"})

for name in nameList:
    print(name.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


Analicemos al método `findAll()` :

findAll(tag, attributes, recursive, text, limit, keywords)

 - **tag**: podemos pasar el nombre del tag como un string o una lista de tags y `findAll()` nos va a traer todos los tags de esa lista que encuentre en el documento
 - **attributes**: podemos pasar un diccionario con los valores de los atributos y `findAll()` nos va a traer los tags que contengan alguno de los atributos especificados. 
 - **recursive**, por default True. Si recursive=True, va a buscar en los hijos y en los descendientes de los tags. Si recursive=False, va a buscar solamente en el nivel superior.
 - **text**: busca en función del contenido del tag y no de las propriedades del mismo. 
 - **limit**: podemos definir un límite a la cantidad de elementos que trae `findAll()`. Por default es None. Un caso particular de `findAll()` es el método `find()`, que es equivalente a `findAll()` con limit=1: 
         . find(tag, attributes, recursive, text, keywords)
 - **keyword**: podemos traer tags que contienen un atributo en particular.  


Ejemplos uso del argumento text:

In [15]:
# Supongamos que queremos saber cuántas veces aparece "the prince" en tags:

nameList2 = bsObjwp.findAll(text='the prince')
len(nameList2)

7

Probemos un ejemplo con el argumento **keyword**:

In [16]:
# Hay que prestar atención a que, como la palabra class está reservada en Python,
# tenemos que agregar un guion bajo.

class_green = bsObjwp.findAll(class_="green")

for name in class_green:
    print(name.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


### Recorriendo los árboles

In [17]:
url_gift = 'http://www.pythonscraping.com/pages/page3.html'
resp_gift = requests.get(url_gift)
bsObjgl = BeautifulSoup(resp_gift.content, 'html.parser')

Podemos acceder a los hijos de un determinado `tag`de la siguiente manera:

In [18]:
for child in bsObjgl.find('table', {'id': 'giftList'}).children:
    print(child)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


Podemos traer a los hermanos de un `tag`:

In [19]:
for sibling in bsObjgl.find('table', {'id': 'giftList'}).tr.next_siblings:
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

El output de este código trae todas las filas de productos de la tabla de productos, excepto la primera fila de título. ¿Por qué se salta la fila del título? Dos razones: primero, los objetos no pueden ser hermanos de si mismos. Cada vez que obtenga hermanos de un objeto, el objeto en sí no se incluirá en la lista. Segundo, esta función llama a los siguientes hermanos solamente. Si tuviéramos que seleccionar una fila en medio de la lista, por ejemplo, y llamar a `next_siblings` en ella, solo se devolverían los (siguientes) hermanos. Entonces, al seleccionar la fila del título y llamar a `next_siblings`, podemos seleccionar todas las filas de la tabla, sin seleccionar la fila del título.

Alternativamente, podemos llamar a la función `previous_siblings` para traer a los hermanos anteriores.

Finalmente las funciones `next_sibling` y `previous_sibling` funcionan igual a las que mencinamos recién pero solamente traen un hermano.

##### Accediendo al valor de los atributos:

Podemos acceder al valor de los atributos. Veamos algunos ejemplos:

In [20]:
bsObjgl.table['id']

'giftList'

In [21]:
bsObjgl.find('tr', {'class':'gift'})['id']

'gift1'

## Obtención de una página

In [22]:
# En este ejemplo, trabajaremos con el portal del diario La Prensa
url_lp = 'http://www.laprensa.com.ar/'
resp_lp = requests.get(url_lp)

In [23]:
# Corroboramos que el pedido se haya hecho correctamente
resp_lp.ok

True

In [24]:
# Verificamos el estado de la respuesta
resp_lp.status_code

200

![title](HTTP_STATUS_CODE.jpg)

In [25]:
# Chequeamos el encoding de la respuesta
resp_lp.encoding

'utf-8'

In [26]:
# Consultamos el tiempo de demora entre el pedido y la respuesta
resp_lp.elapsed

datetime.timedelta(0, 0, 818663)

In [27]:
# Inspeccionamos los headers
resp_lp.headers

{'Cache-Control': 'private, no-store', 'Pragma': 'no-cache', 'Content-Type': 'text/html; charset=utf-8', 'Content-Encoding': 'gzip', 'Expires': 'Mon, 02 Jul 2018 14:36:14 GMT', 'Vary': 'Accept-Encoding', 'Server': 'Microsoft-IIS/8.5', 'Set-Cookie': 'ASP.NET_SessionId=jp3vfuaimm50ysffzpeawkdu; path=/; HttpOnly', 'X-AspNet-Version': '4.0.30319', 'Date': 'Tue, 02 Jul 2019 14:36:13 GMT', 'Content-Length': '16055'}

### Algunos elementos importantes enviados en la petición

In [28]:
resp_lp.request.url

'http://www.laprensa.com.ar/'

In [29]:
resp_lp.request.headers

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

### Modificando headers

In [30]:
# Definimos un diccionario para setear los headers
head = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
        'Chrome/59.0.3071.115 Safari/537.36'}

# Volvemos a hacer el pedido cambiando los headers
resp_lp = requests.get(url_lp, headers = head)

In [31]:
# Volvemos a examinar los headers de la request
resp_lp.request.headers

{'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [32]:
# Hacemos un update de los headers
head.update({'Accept': 'text/plain, text/html'})
head

{'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
 'Accept': 'text/plain, text/html'}

In [33]:
# Chequeamos que se hayan modificado los headers
resp_lp = requests.get(url_lp, headers = head)
resp_lp.request.headers

{'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': 'text/plain, text/html', 'Connection': 'keep-alive'}

### Verificamos qué cosas admite la página que queremos consultar

In [34]:
# robots.txt contiene información sobre qué cosas se les permite a los bots
# y qué no en las distintas páginas web 

# https://www.promptcloud.com/blog/how-to-read-and-respect-robots-file/

robots = url_lp + 'robots.txt'
print(requests.get(robots).text)

##ACAP version=1.0

User-Agent: *
Disallow: /cgi-bin
Disallow: /biblioteca
Allow: /

ACAP-crawler: *
# User-Agent: *
ACAP-disallow-crawl: /cgi-bin
# Disallow: /cgi-bin
ACAP-disallow-crawl: /biblioteca
# Disallow: /biblioteca
ACAP-allow-crawl: /
# Allow: /




### Los que nos interesan particularmente son resp.text y resp.content, que guardan el contenido de la página como string o bytes, respectivamente

Las Regular Expressions son una forma muy flexible de realizar búsquedas dentro de textos, por lo que suele ser muy útil para extraer información de páginas web.

In [35]:
# Importamos la librería re (por Regular Expressions)
import re

Para utilizar Regex en Python, usamos el módulo `re`. Las siguientes funciones nos proporcionan la mayor parte de la funcionalidad necesaria:

    - re.findall(pattern, string)
    Busca dentro de string utilizando pattern, devolviendo una lista con todos los resultados.
    - re.search(pattern, string)
    Busca la primera coincidencia con pattern dentro de string.
    - re.sub(pattern, replace, string)
    Reemplaza lo que coincida con pattern por replace, dentro de string.

In [36]:
# Imprimimos el texto de la respuesta
resp_lp.text

'\r\n\r\n\r\n<!DOCTYPE html>\r\n<html>\r\n<head>\r\n<meta http-equiv="content-type" content="text/html; charset=utf-8" />\r\n<meta property="og:url" content="http://www.laprensa.com.ar/default.aspx" />\r\n<meta property="og:title" content="La Prensa" />\r\n<meta property="og:description" content="laprensa.com.ar - Información actualizada diariamente. Noticias de Argentina y del mundo - ¡Ingresá ya!" />\r\n<title>La Prensa</title>\r\n<meta name="description" content="laprensa.com.ar - Información actualizada diariamente. Noticias de Argentina y del mundo - ¡Ingresá ya!" />\r\n<meta name="keywords" content="la prensa, diario, argentina, noticias, información, política, economía, finanzas, deportes, futbol, tenis, rugby, basquetbol, voleibol, formula 1, cultura, espectáculos, cine, teatro, juegos, internacional, exterior, ciencia, ultimas noticias" />\r\n<meta name="copyright" content="2019 La Prensa" />\r\n<meta name="generator" content="Civinext Groupware">\r\n<script language="javascri

In [37]:
# Usamos el navegador para identificar la estructura de los datos que queremos extraer y creamos el patrón de búsqueda
pattern = 'class="title".+?>(.+?\s*)<'

In [38]:
#Usamos findall para encontrar todas las coincidencias
titles = [m for m in re.findall(pattern, resp_lp.text)]

In [39]:
titles

['Macri sobre el acuerdo con la UE: "Muchas empresas se van a animar a invertir en el país"',
 'Cristina Kirchner viajó a Cuba para visitar a su hija Florencia',
 'Vidal: el acuerdo con la UE "generará desarrollo, más trabajo y más dignidad"',
 'La lenta recuperación económica no despeja las dudas políticas',
 'La deslealtad a la Constitución',
 'Los impuestos, el lastre que frena la iniciativa exportadora\r\n\r\n',
 'Dictan conciliación obligatoria para impedir despidos de trabajadores de Zanella en San Luis',
 'Difunden las identidades de las 15 víctimas fatales del accidente de ómnibus en Tucumán',
 'Viaje en el tiempo a los sabores de Italia',
 '"Pichetto tiene un rol estabilizador"',
 '"Hay que bajar la carga tributaria en Argentina"\r\n\r\n',
 '"Habrá un nuevo blanqueo"',
 'La meta fiscal, un objetivo muy arduo',
 '¿Cómo terminaron sus días los últimos virreyes del Río de  la Plata?\r\n',
 'Marta Minujin sorprende a Nueva York',
 'Hemingway y su inspiración cubana',
 'Sobre la ca

## Utilizando Beautiful Soup

En lugar de utilizar regex para parsear el contenido HTML de la respuesta, ahora vamos a repetir el mismo ejercicio de obtención de los títulos de las noticias utilizando la librería `BeautifulSoup`.

In [40]:
# Instanciamos un objeto de tipo BeatifulSoup 
soup = BeautifulSoup(resp_lp.content, 'html.parser')

In [41]:
# Chequeamos el tipo del objeto
type(soup)

bs4.BeautifulSoup

In [42]:
# Imprimimos la respuesta en un formato conveniente
soup.html

<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="http://www.laprensa.com.ar/default.aspx" property="og:url"/>
<meta content="La Prensa" property="og:title"/>
<meta content="laprensa.com.ar - Información actualizada diariamente. Noticias de Argentina y del mundo - ¡Ingresá ya!" property="og:description"/>
<title>La Prensa</title>
<meta content="laprensa.com.ar - Información actualizada diariamente. Noticias de Argentina y del mundo - ¡Ingresá ya!" name="description"/>
<meta content="la prensa, diario, argentina, noticias, información, política, economía, finanzas, deportes, futbol, tenis, rugby, basquetbol, voleibol, formula 1, cultura, espectáculos, cine, teatro, juegos, internacional, exterior, ciencia, ultimas noticias" name="keywords"/>
<meta content="2019 La Prensa" name="copyright"/>
<meta content="Civinext Groupware" name="generator"/>
<script language="javascript" src="http://www.laprensa.com.ar/js/jquery.min.js?&amp;v=4.0.7066.16

In [43]:
# Leemos el title
soup.title

<title>La Prensa</title>

In [44]:
# Extraemos el texto del title

soup.title.get_text()

'La Prensa'

In [45]:
# Almacenamos los títulos en una lista
titles = soup.findAll('div', {'class':'title'})
titles

[<div class="title"><a href="http://www.laprensa.com.ar/478201-Macri-sobre-el-acuerdo-con-la-UE-Muchas-empresas-se-van-a-animar-a-invertir-en-el-pais.note.aspx" onclick="javascript:if(typeof(_gaq)!='undefined'){_gaq.push(['_trackEvent', 'Notas', 'Política', 'Macri sobre el acuerdo con la UE: \&quot;Muchas empresas se van a animar a invertir en el país\&quot;'])};" target="_self">Macri sobre el acuerdo con la UE: "Muchas empresas se van a animar a invertir en el país"</a></div>,
 <div class="title"><a href="http://www.laprensa.com.ar/478195-Cristina-Kirchner-viajo-a-Cuba-para-visitar-a-su-hija-Florencia.note.aspx" onclick="javascript:if(typeof(_gaq)!='undefined'){_gaq.push(['_trackEvent', 'Notas', 'Política', 'Cristina Kirchner viajó a Cuba para visitar a su hija Florencia'])};" target="_self">Cristina Kirchner viajó a Cuba para visitar a su hija Florencia</a></div>,
 <div class="title"><a href="http://www.laprensa.com.ar/478202-Vidal-el-acuerdo-con-la-UE-generara-desarrollo-mas-trabajo

In [46]:
# Extraemos los títulos
titulos = [title.text for title in titles]
titulos

['Macri sobre el acuerdo con la UE: "Muchas empresas se van a animar a invertir en el país"',
 'Cristina Kirchner viajó a Cuba para visitar a su hija Florencia',
 'Vidal: el acuerdo con la UE "generará desarrollo, más trabajo y más dignidad"',
 'La lenta recuperación económica no despeja las dudas políticas',
 'La deslealtad a la Constitución',
 'Los impuestos, el lastre que frena la iniciativa exportadora\r\n\r\n',
 'Dictan conciliación obligatoria para impedir despidos de trabajadores de Zanella en San Luis',
 'Difunden las identidades de las 15 víctimas fatales del accidente de ómnibus en Tucumán',
 'Viaje en el tiempo a los sabores de Italia',
 '"Pichetto tiene un rol estabilizador"',
 '"Hay que bajar la carga tributaria en Argentina"\r\n\r\n',
 '"Habrá un nuevo blanqueo"',
 'La meta fiscal, un objetivo muy arduo',
 '¿Cómo terminaron sus días los últimos virreyes del Río de  la Plata?\r\n',
 'Marta Minujin sorprende a Nueva York',
 'Hemingway y su inspiración cubana',
 'Sobre la ca