# Introducción a Web Scraping

Web Scraping es la práctica de reunir desde internet datos por cualquier otro medio que no sea una API o un humano utilizando un browser

Normalmente se usa un programa automatizado (algunas veces llamo bot) que:
    <ol> 1. Pide la información a un servidor web  </ol>
    <ol> 2. Requiere sus datos </ol>
    <ol> 3. Hace parsing de los datos para extraer la información deseada </ol>

En general, es preferible utilizar un API cuando existe. Usos comunes de scraping son: 
<li> Se requieren datos de una colección de sitios </li>
<li> Los datos requeridos son relativamente pequeños </li>
<li> La fuente de datos no tiene los recursos para generar un API</li>

La regla es que si lo puedes ver en tu navegador, entonces lo puedes acceder via un python script

Nota: Platicar sobre arquitectura web

In [2]:
from urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


La librería urllib contains functions for requesting data across the web, handling cookies, and even changing metadata such as headers and your user agent. 

## Beautiful Soup

El nombre Beautiful Soup proviene del poema de Lewis Carrol en Alice in Wonderland:

*“Beautiful Soup, so rich and green,*

*Waiting in a hot tureen!*

*Who for such dainties would not stoop?*

*Soup of the evening, beautiful Soup!”*

Como en el país de las maravillas, BeautifulSoup trata de hacer sentido de cosas que por separado no lo tienen; te ayuda a formatear y organizar el desordenado mundo web arreglando mal HTML y presentado objetos de Python para representar estas estructuras.

Antes de esta parte es importante que podamos instalar la librería corriendo: pip3 install beautifulsoup4 en su terminal

In [10]:
from bs4 import BeautifulSoup

In [11]:
html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html")
html.status

200

In [12]:
bsObj = BeautifulSoup(html.read(),"lxml");

In [13]:
print(bsObj.html)

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>


In [35]:
print(bsObj.html.h1)

<h1>An Interesting Title</h1>


Uno de los errores más comunes cuando hacemos scraping es pensar que vamos a dejar nuestro bot corriendo y que por la mañana tendremos lista nuestra base de datos sin manejar excepciones.

Hay dos cosas principlaes que pueden salir mal en esta línea:
    
#urlopen("http://www.pythonscraping.com/exercises/exercise1.html")

(1) La página no es encontrada en el servidor (u ocurrió un error a la hora de pedirla)

(2) No se encuentra el servidor

En el primer caso, nos regresará un error. Por ej. '404': página no encontrada, '500': error interno del servidor, etcétera. Con la función urlopen esto nos generará el error genérico "HTTPError" que podemos manejar de la siguiente forma

In [44]:
try:
    html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html")
except HTTPError as e:
    print(e)
    #Lugar del "Plan B"
else:
    pass
    #El programa continúa. Nota: Si tu indicas return o break 
    #en la excepción, entonces no se utiliza el 'else'

En el segundo caso, si el servidor no se ha encontrado entonces urlopen() regresa un objeto 'None' que podemos manejar de la siguiente forma:

In [42]:
if html is None:
    print("URL is not found")
else:
    pass
    #program continues 

Podemos obtener un par de errores distintos si el programa (bot) encuentra dificultades para abrir nuestra página. Veamos primero que:

In [45]:
print(bsObj.nonExistentTag)

None


  tag_name, tag_name))


genera un objeto de tipo None

Mientras que 

In [47]:
print(bsObj.nonExistentTag.someTag)

  tag_name, tag_name))


AttributeError: 'NoneType' object has no attribute 'someTag'

genera un AtributeError

Podemos manejar este par de errores de la siguiente forma

In [49]:
try:
    badContent = bsObj.nonExistingTag.anotherTag
except AttributeError as e:
    print("Tag was not found")
else:
    if badContent == None:
        print ("Tag was not found")
    else:
        print(badContent)

Tag was not found


  tag_name, tag_name))


Entonces normlmente para hacer un request escribiremos

In [14]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

In [15]:
def getTitle(url,parser):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bsObj = BeautifulSoup(html.read(),parser)
        title = bsObj.body.h1
    except AttributeError as e:
        return None
    return title

In [16]:
title = getTitle("http://www.pythonscraping.com/exercises/exercise1.html","lxml")
title

<h1>An Interesting Title</h1>

In [57]:
if title == None:
    print("Title could not be found")
else:
    print(title)

<h1>An Interesting Title</h1>


Un buen manejo de las excepciones es muy importante para hacer web scraping

### Título

Vamos a utilizar la siguiente página web para prácticar nuevas técnicas de scraping. Démosle un vistazo: http://www.pythonscraping.com/pages/warandpeace.html

Como podemos ver los personajes aparecen en color verde, mientras que las citas textuales están escritas en color rojo

Además cada uno tiene asignada una clase distinta de CSS lo cual nos puede ser de utilidad para poder obtener esta información

In [17]:
html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html,'lxml')

Nota: Para hacer más legible este notebook vamos a omitir las excepciones por un momento

Podemos entonces obtener con el método .findAll aquellos tags de tipo 'span' que sean de la clase 'green' e imprimirlos después con un ciclo for

In [18]:
bsObj.findAll?

In [22]:
bsObj.findAll('span',{"class":"red"})

[<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
 Buonapartes. But I warn you, if you don't tell me that this means war,
 if you still try to defend the infamies and horrors perpetrated by
 that Antichrist- I really believe he is Antichrist- I will have
 nothing more to do with you and you are no longer my friend, no longer
 my 'faithful slave,' as you call yourself! But how do you do? I see
 I have frightened you- sit down and tell me all the news.</span>,
 <span class="red">If you have nothing better to do, Count [or Prince], and if the
 prospect of spending an evening with a poor invalid is not too
 terrible, I shall be very charmed to see you tonight between 7 and 10-
 Annette Scherer.</span>,
 <span class="red">Heavens! what a virulent attack!</span>,
 <span class="red">First of all, dear friend, tell me how you are. Set your friend's
 mind at rest,</span>,
 <span class="red">Can one be well while suffering morally? Can one be calm in times
 l

In [24]:
nameList = bsObj.findAll("span", {"class":"green"})
nameList

[<span class="green">Anna
 Pavlovna Scherer</span>, <span class="green">Empress Marya
 Fedorovna</span>, <span class="green">Prince Vasili Kuragin</span>, <span class="green">Anna Pavlovna</span>, <span class="green">St. Petersburg</span>, <span class="green">the prince</span>, <span class="green">Anna Pavlovna</span>, <span class="green">Anna Pavlovna</span>, <span class="green">the prince</span>, <span class="green">the prince</span>, <span class="green">the prince</span>, <span class="green">Prince Vasili</span>, <span class="green">Anna Pavlovna</span>, <span class="green">Anna Pavlovna</span>, <span class="green">the prince</span>, <span class="green">Wintzingerode</span>, <span class="green">King of Prussia</span>, <span class="green">le Vicomte de Mortemart</span>, <span class="green">Montmorencys</span>, <span class="green">Rohans</span>, <span class="green">Abbe Morio</span>, <span class="green">the Emperor</span>, <span class="green">the prince</span>, <span class="green">Pri

In [25]:
for name in nameList:
    print(name.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [62]:
#Forma general .findAll
#bsObj.findAll(tagName, tagAttribute)

Tip de la vida: .get_text() nos va a arrojar el texto dentro de los tags que hallamos seleccionado. Es una mejor práctica que .get_text() se llame hasta el final para preservar lo más posible la estructura de la página

### Find y findall

Find() y findall() son dos métodos muy parecidos con la diferencia de que find() sólo nos regresa el primer elemento que encuentra, mientras que findAll nos regresa pues... todos.

In [61]:
#findAll(tag, attributes, recursive, text, limit, keywords)
#find(tag, attributes, recursive, text, keywords)

Podemos buscar varios tags

In [26]:
titleList = bsObj.findAll({"h1","h2","h3","h4","h5","h6"})
for title in titleList:
    print(title.get_text())

War and Peace
Chapter 1


o varios atributos

In [27]:
redGreenList = bsObj.findAll("span", {"class":"green", "class":"red"})
for redGreen in redGreenList:
    print(redGreen.get_text())

Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If you have nothing better to do, Count [or Prince], and if the
prospect of spending an evening with a poor invalid is not too
terrible, I shall be very charmed to see you tonight between 7 and 10-
Annette Scherer.
Heavens! what a virulent attack!
First of all, dear friend, tell me how you are. Set your friend's
mind at rest,
Can one be well while suffering morally? Can one be calm in times
like these if one has any feeling?
You are
staying the whole evening, I hope?
And the fete at the English ambassador's? Today is Wednesday.

El argumento 'recursive' es un booleano. Si es verdadero, buscará en los tags principales, en los hijos, en los hijos de los hijos, etc; mientras que si es falso, sólo buscará en los tags principales. (El default de 'recursive' es True)

Con el argumento 'text' podemos buscar sobre el texto dentro de los tags. Por ejemplo, podemos buscar el número de veces que se nombra "the prince" en el texto

In [29]:
nameList = bsObj.findAll(text="the prince")
print(len(nameList))

7


El argumento 'limit' se utiliza sólo en el método .findAll (.find tiene un límite de 1) e indica el número de ocurrencias de la búsqueda en cuestión

El argumento 'keyword' te permite seleccionar tags que contengan cierto atributo. Por ejemplo

In [30]:
allText = bsObj.findAll(id="text")
print(allText[0].get_text())


"Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news."

It was in July, 1805, and the speaker was the well-known Anna
Pavlovna Scherer, maid of honor and favorite of the Empress Marya
Fedorovna. With these words she greeted Prince Vasili Kuragin, a man
of high rank and importance, who was the first to arrive at her
reception. Anna Pavlovna had had a cough for some days. She was, as
she said, suffering from la grippe; grippe being then a new word in
St. Petersburg, used only by the elite.

All her invitations without exception, written in French, and
delivered by a scarlet-liveri

¿Entonces cuál es la diferencia entre un argumento por keyword o buscar por atributo (usando un diccionario)? Básicamente, que el buscar por atributo indica lógica OR, mientras que el buscar por keyword indica lógica AND

### Otros objetos dentro de Beautiful Soup

Hasta ahora hemos manejado objetos del tipo 'BeautifulSoup' y objetos del tipo 'tag' (que encontramos con el método .findAll). Sin embargo, existen otros dos tipos de objetos dentro de esta librería: 
<li> NavigableStrings: representan el texto dentro de los tags </li>
<li> Comment: representan comentarios en el código HTML </li>

### Hijos y Descendencia

Beautiful Soup hace una distinción entre los atributos 'children' (sólo hijos de primer nivel) y 'descendants' (hijos, hijos de los hijos, etc). 

En general, Beautiful Soup funciona con los 'desdendants' del tag que está siendo seleccionado. Si quieres que sólo aplique a los 'descendants' que son 'children' (hijos directos), entonces tienes que indicarlo con .children

Veamos un ejemplo para seleccionar sólo los regalos de primer nivel en la tabla de esta [página](http://www.pythonscraping.com/pages/page3.html)

In [31]:
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj = BeautifulSoup(html,'lxml')

In [32]:
for child in bsObj.find("table",{"id":"giftList"}).children:
    print(child)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


de no haber indicado children otros tags de tipo span, td e img se hubieran guardado

### Hermanos: métodos siblings

El método next_siblings() nos ayuda a obtener datos a partir de una tabla

In [81]:
for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:
    print(sibling) 



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

Nota importante: la función next_siblings sólo va a obtener a "los hermanos menores" del objeto, por esa razón no obtiene aquí el título de la tabla. En caso de que hubiéramos seleccionado una fila a media tabla sólo nos arrojaría las filas debajo

Para "los hermanos mayores" existe el método previous_siblings

Asimismo, existen los métodos next_sibling y previous_sibling que regresan un tag en vez de una lista

### Padres

Por ejemplo podemos utilizar el atributo 'parent' para buscar el precio que corresponde a la primer imagen de la canasta de vegetales 

In [36]:
print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"
                       }).parent.previous_sibling.get_text())


$15.00



### Accesando atributos

Podemos ver la diferencia entre los objetos del tipo BeautifulSoup y Tag. Asimismo, podemos ver cómo accesar los elementos del DOM a partir de atributos

In [87]:
titulo = bsObj.findAll('h1')
titulo

[<h1>Totally Normal Gifts</h1>]

In [26]:
bsObj.html.body.h1

<h1>Totally Normal Gifts</h1>

In [99]:
bsObj.body.div

<div id="wrapper">
<img src="../img/gifts/logo.jpg" style="float:left;"/>
<h1>Totally Normal Gifts</h1>
<div id="content">Here is a collection of totally normal, totally reasonable gifts that your friends are sure to love! Our collection is
hand-curated by well-paid, free-range Tibetan monks.<p>
We haven't figured out how to make online shopping carts yet, but you can send us a check to:<br/>
123 Main St.<br/>
Abuja, Nigeria
We will then send your totally amazing gift, pronto! Please include an extra $5.00 for gift wrapping.</p></div>
<table id="giftList">
<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>
<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>
<tr class="gift" id="gift2"><td>
Russian Nesting Dolls


In [37]:
bsObj.body.div.h1

<h1>Totally Normal Gifts</h1>