# Sesión 3 - Aprendamos a extraer datos de una página web

En esta sesión pondremos las cosas que hemos aprendido de `Python` en práctica. Desarrollaremos una serie de comandos simples que nos permitan extraer las partes que deseamos de las páginas web. Los objetivos de esta sesión son:

* Aprender la estructura básica de una página web.
* Aprender a identificar elementos de CSS que nos facilitan la tarea de extracción de datos.
* Identificar cómo obtener elementos de una tabla que está publicada en una página web. 
* Guardar información extraída en formato CSV. 


##Estructura básica de una página web

Las páginas web están escritas en un lenguaje de escritura conocido como `HTML`. El `HTML` provee el esqueleto de la página web a las que después se les puede añadir elementos de estilo y programación. Saber la manera en que funciona `HTML` es esencial para saber la manera en que podemos extraer información de las páginas. De manera simple, `HTML` puede definirse como un conjunto de etiquetas y atributos que detallan cómo se verán los elementos de la página web. 

Abajo tienes una página web muy simple. Mira la manera en que está dispuesto el `HTML` [Haz doble click o enter en esta celda para que veas el código `HTML`]:

<!DOCTYPE html>
<html>
	<head>
		<title>Page Title</title>
	</head>
<body>

	<h1>Mi Primer Título</h1>
	<p>Este es mi primer párrafo.</p>
	<a href="http://jlcoto.github.io/taller_python/">Este es un link al blog</a>

</body>
</html>

Si quieres, puedes escribir tu propio `HTML` y ver cómo se modifica automáticamente [en la siguiente página](http://www.w3schools.com/html/tryit.asp?filename=tryhtml_default).


## Más que HTML

Las páginas web modernas distan mucho de la simple página previamente mostrada. Normalmente las acompañan muchas reglas de estilo y algunas características que permiten al usuario interactuar con alguna plataforma. El código de `HTML` de mi repositorio llamado `index_tables.html` presenta una tabla. Nota que esta tabla está acompañado de reglas que permiten mejorar su estilo. Estas reglas se conocen como `CSS`. Exploremos el archivo antes de entrar a la extracción de datos.

## Extraigamos información de una página web

Junto a los archivos que he anexado para la sesión de hoy encontrarás la página `html_basics.html`. Esta será la primera página web de la que extraigamos información. Para extraer la información de páginas web, usaremos el módulo de `Python` llamado `BeautifulSoup`. Esto hará la labor de extraer data mucho más sencilla. Asegúrate de haber descargado el módulo y de que está funcionando correctamente. Podrás leer más sobre el funcionamiento de BeautifulSoup [leyendo su documentación](http://www.crummy.com/software/BeautifulSoup/bs4/doc/). 

In [None]:
#Extraer el primer título

In [None]:
#Extraer el primer títu sin tags


## Ejercicios
1. Imprime el segundo y tercer títulos de la página. Imprimelos sin las etiquetas `HTML`.
2. Imprime la primera lista la de Jamón, Queso, Pan.


## Find y FindAll

Dos de los métodos más usados de BeautifulSoup son el `find` y `findAll`. El método `find` buscará la primera coincidencia de aquello que estés buscando. El findAll navegará toda la página web y te dara una **lista** que contiene todos aquellos elementos que concuerden con aquello que has solitado. Fíjate abajo y mira la diferencia entre qué obtenemos con `find` y `findAll` para obtener las listas de viñetas.

In [None]:
#Imprime la primera lista de la página


In [None]:
#Imprime todas las dos listas de viñetas


In [None]:
# Cómo accedemos a la segunda lista? Utiliza tus conocimientos de listas!

Imagínate que queremos poner todos los productos de la primera lista en una lista de compras. 

In [None]:
mi_primera_lista = bsObj.findAll("ol")[0].findAll("li")
print(mi_primera_lista)

Nota dos cosas del código anterior:
1. Puedes seguir usando llamando los métodos de BeautifulSoup sobre los elementos de la lista.
2. Como has usado el método `findAll` dos veces, al final también obtienes una lista. 

Sin embargo, lo ideal al momento de guardar la data es hacerlo sin todas esas moletas etiquetas de `HTML`. ¿Qué creen que podemos hacer para eliminarlas? Si estaban pensando en usar loops, pues ¡están en lo correcto!

In [None]:
#Pon todos los elementos en una lista, pero remueve todos las etiquetas innecesarias de HTML


##Ejercicios
1. Modifica el código anterior para obtener todos los elementos de la segunda lista y ponlos en una lista. Estos elementos deberán formar parte de una lista llamada `segunda_lista` y no debe contener etiquetas `HTML`. Al final, haz una lista de compras finales que contenga la primera y segunda listas.
2. Realiza el mismo ejercicio para la lista enumerada.


## Extraigamos tablas

A veces tenemos la suerte de que aquello que necesitamos se encuentra en una tabla en una página web. Lastimosamente, el formato en el que se encuentra los datos de la página hace imposible que podamos trabajar con ellos. Como siempre, antes de entrar a extraer cualquier elemento de una página web, lo mejor es familiarizarte con su contenido. 

In [None]:
pag_web_2 = open('index_tables.html', 'r').read()
bsObj2 = BeautifulSoup(pag_web_2, "html.parser")


In [None]:
#Obteniendo los títulos de la tabla
print(bsObj2.findAll("table")[0].findAll("th", {"scope": "col"}))

In [None]:
#Otra forma de obtener los títulos de la tabla
print(bsObj2.find("table").find("thead").findAll("th"))

In [None]:
print(bsObj2.find("table").find("tbody").findAll("th", {"scope": "row"}))

In [None]:
print(bsObj2.find("table").find("tbody").findAll("td"))

## Ejercicio

1. Ahora, realiza el mismo ejercicio para la tabla 2. Primero, genera una lista con el nombre de todos las personas que aparecen en la lista. Finalmente, remueve todas las etiquetas de `HTML` de la lista final.
2. Necesito una lista con todos los puestos y correos electrónicos de los mails obtenidos. Nuevamente, esta lista no debe contener ningún tipo de etiquetas de `HTML`.



# ¡Vamos a la web!

Hasta ahora solo hemos extraído contenido de páginas web que he creado. ¿Qué pasa cuando vamos a la jungla de la web? En el siguiente ejercicio haremos lo mismo pero usando el módulo `Requests` de `Python`. Este módulo nos permitirá analzar contenido de páginas web dentro de `Python`. Puedes leer un poco más de esta librería en la [siguiente página web](http://www.python-requests.org/en/latest/). 

In [None]:
import requests
pag_wiki = requests.get("https://es.wikipedia.org/wiki/Partidos_pol%C3%ADticos_del_Per%C3%BA")
wiki_pag = BeautifulSoup(pag_wiki.text, "html.parser")

#Agarremos el título de la página:
wiki_pag.find("h1", {"class":"firstHeading", "lang":"es"})

In [None]:
#Agarremos el título de la tabla


In [None]:
#Obtengamos el link del Jurado Nacional de Elecciones


## Ejercicios:
Utiliza lo que sabes hasta ahora para explorar un poco más la página de wikipedia.
1. Haz una lista donde incluyas todas las coaliciones políticas que existen en el Perú.
2. Haz una lista con las páginas que wikipedia recomienda visitar. (Bajo la sección de véase también)

In [None]:
#Ejercicio 1

In [None]:
#Ejercicio 2

## No todo dicho está dicho

A veces hay páginas que son más difíciles de extraer. Esto puede deberse a que el `HTML` que usan no está bien formateado, la falta de orden o que, simplemente, no existen etiquetas o atributos suficientes con los cuales poder identificar los datos que deseamos. 

Fíjate en el ejercicio de abajo. Se nos pide obtener una lista de los partidos políticos del Perú. ¿Cómo podemos hacerlo de manera sencilla? Trata por tu cuenta primero para ver si encuentras una buena solución. No te olvides de inspeccionar la página primero para ver si encuentras algún patrón que pueda ser de tu ayuda. ¿Se les ocurre alguna manera de hacerlo?

## HTML es una familia...

Veámos nuevamente nuestras páginas de `HTML`. Los elementos de `HTML` también se pueden ver como una familia. Esto nos puede facilitar la vida cuando no tengamos mayor referencia para extraer un elemento, salvo por su relación con otro elemento. BeautifulSoup nos ofrece una serie de métodos para poder acceder a elementos de las páginas web por sus *"relaciones de parentesco"*.  



## Bajando en el árbol familiar

Existen dos métodos para bajar en el árbol familiar. `.descendants` y `.children`.

*  ** .descendants **: Retorna todo el contenido que esté bajo la etiqueta padre. 
*  ** .children **: Retorna solamente el primer hijo de todo aquello que se encuentre bajo la etiqueta padre.

Nota que en ambos casos se retornará un elemento iterable. Solo podemos acceder a ellos a través de elementos que nos permitan la iteración (i.e. loops).

Revisitemos algunos de nuestros ejercicios anteriores...

In [None]:
from bs4 import BeautifulSoup 

pag_web = open('html_basics.html', 'r').read()
bsObj = BeautifulSoup(pag_web, "html.parser")

In [None]:
# Encontremos los elementos de la lista
for child in bsObj.find("body").descendants:
    print(child)

In [None]:
lista_alimentos = []
for child in bsObj.find("body").children:
    print(child)

## Ejercicio:

* Tratemos de poner nuevamente los elementos de la primera lista en una canasta.

*Nota que*: Esto puede ser un poco más complicado porque `.children` y `.descendants` retornan un iterador (solo podemos acceder a sus elementos haciendo un loop o definiendo una lista).

In [None]:
# Poner los elementos de la primera lista en la canasta. 
for child in bsObj.find("ol").children:
    print(repr(child))

In [None]:
# Limpiando el output que hemos obtenido
lista_alimentacion = []
for child in bsObj.find("ol").children:
    if child == "\n":
        continue
    else:
        lista_alimentacion.append(child.string)
print(lista_alimentacion)

## Inténtalo tú

* Modifica el código anterior para agarrar todos los elementos de la segunda lista de la página. 

#No solamente descendientes e hijos... También padres y hermanos.

También existen otras opciones para navegar una página y obtener lo que queremos `.parent`, `next_sibling` y `previous_sibling` nos ofrecen otras opciones.

Nota que también existe `.parents`, `next_siblings` y `previous_sibling`. Al igual que `children` y `descendants` nos dará un iterable con todos los elementos que cumplan con esas condiciones.

In [None]:
# ‚¿Cuál será el padre de nuestro primer elemento de la lista?

In [None]:
# ‚¿Cuál será el hermano anterior de nuestro primer elemento de la lista?


In [None]:
# ¿Cuál es el hermano que sigue a nuestro primer elemento de la lista?

## Regresemos a la página de Wikipedia

* ¿Qué elemento es el hermano del primer elemento de la lista de coaliciones políticas?
* Pongámoslo todo en una lista.

In [None]:
wiki_pag.find("li").get_text()

In [None]:
# Poner coaliciones politicas en una lista.


## Gente que busca gente

Para terminar todas las opciones de navegación que ofrece BeutifulSoup, terminaremos con algunos criterios de búsqueda. Se acuerdan que antes usamos los métodos `.find(attrs)` y `findAll(attrs)` para encontrar algunos elementos de la página que nos interesaba... lo mismo podemos hacer para padres y hermanos. Para eso puedes usar `.find_parent(attrs)`, `.find_parents(attrs)`,  `.find_next_sibling(attrs)` o  `.find_next_siblings(attrs)`... Al igual que en el caso anterior la diferencia entre usar el método en singular y en plural radica que en el singular (i.e. `.find_parent(attrs)` y `.find_next_sibling(attrs)`) se retornará el primer elemento de la página que cumpla con las especificaciones. En los otros casos, se retornará una lista con todos aquellos elementos que cumplan con las características establecidas.

In [None]:
wiki_pag.find("li").find_next_siblings()

In [None]:
# Sobre la base del ejemplo anterior genera una lista que contenga todas las coaliciones. 
# ¡¡Recuerda de quitar todas las etiquetas de HTML!!

## Ejercicios - Tarea
1. Repite el ejercicio anterior para la lista ordenada de la página web 'html_basics.html'.
1. (Medio) Trata de obtener el análisis político para la región Lima de la siguiente página: http://www.infogob.com.pe/Analisis/ubigeo.aspx?IdLocalidad=1454&IdUbigeo=140000
1. (Difícil) ¿Cuáles son los eventos de actualidad destacados por Wikipedia?
1. (Difícil) Entra a la página web de Wikipedia y obtén la lista de fallecidos del día. Asegúrate de solo obtener el nombre. 


## Cómo obtener toda la tabla

Hasta ahora solo hemos ubicado ciertos elementos de la tabla, sin embargo nostros queremos agarrar toda la tabla. Veamos cómo hacerlo siguiendo el ejemplo de la tabla de partidos políticos de wikipedia. 

In [None]:
#Obteniendo tabla de partidos:
