# Módulo 2: HTML: Requests y BeautifulSoup
## Parsing Pagina12

<img src='https://www.pagina12.com.ar/assets/media/logos/logo_pagina_12_n.svg?v=1.0.178' width=300></img>
En este módulo veremos cómo utilizar las bibliotecas `requests` y `bs4` para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario <a href='www.pagina12.com.ar'>Página 12</a>.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:
1. El navegador envía una solicitud a la URL pidiéndole información.
2. El servidor recibe la petición y procesa la respuesta.
3. El servidor envía la respuesta a la IP de la cual recibió la solicitud.
4. Nuestro navegador recibe la respuesta y la muestra **formateada** en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática para luego extraer la información deseada de la respuesta. Utilizaremos `requests` para realizar peticiones y recibir las respuestas y `bs4` para *parsear* la respuesta y extraer la información.<br>
Te dejo unos links que tal vez te sean de utilidad:
- [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
- [Documentación de requests](https://requests.kennethreitz.org/en/master/)
- [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [None]:
import requests

In [None]:
url = 'https://www.pagina12.com.ar/'

In [None]:
p12 = requests.get(url)

In [None]:
p12.status_code

In [None]:
p12.content

Muchas veces la respuesta a la solicitud puede ser algo que no sea un texto: una imagen, un archivo de audio, un video, etc.

In [None]:
p12.text

Analicemos otros elementos de la respuesta

In [None]:
p12.headers

In [None]:
p12.request.headers

El contenido de la request que acabamos de hacer está avisando que estamos utilizando la biblioteca requests para python y que no es un navegador convencional. Se puede modificar

In [None]:
p12.cookies

In [None]:
from bs4 import BeautifulSoup

In [None]:
s = BeautifulSoup(p12.text, 'lxml')

In [None]:
type(s)

In [None]:
print(s.prettify())

Primer ejercicio: obtener un listado de links a las distintas secciones del diario.<br>
Usar el inspector de elementos para ver dónde se encuentra la información.

In [None]:
secciones = s.find('ul', attrs={'class':'hot-sections'}).find_all('li')
secciones

In [None]:
[seccion.text for seccion in secciones]

In [None]:
seccion = secciones[0]

In [None]:
seccion.a.get('href')

Estamos interesados en los links, no en el texto

In [None]:
links_secciones = [seccion.a.get('href') for seccion in secciones]
links_secciones

Carguemos la página de una sección para ver cómo se compone

In [None]:
sec = requests.get(links_secciones[0])

In [None]:
sec

In [None]:
sec.request.url

In [None]:
soup_seccion = BeautifulSoup(sec.text, 'lxml')

In [None]:
print(soup_seccion.prettify())

La página se divide en un artículo promocionado y una lista `<ul>` con el resto de los artículos

In [None]:
featured_article = soup_seccion.find('div', attrs={'class':'featured-article__container'})
featured_article

In [None]:
featured_article.a.get('href')

In [None]:
article_list = soup_seccion.find('ul', attrs={'class':'article-list'})

In [None]:
def obtener_notas(soup):
    '''
    Función que recibe un objeto de BeautifulSoup de una página de una sección
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    featured_article = soup.find('div', attrs={'class':'featured-article__container'})
    if featured_article:
        lista_notas.append(featured_article.a.get('href'))
    
    # Obtengo el listado de artículos
    article_list = soup.find('ul', attrs={'class':'article-list'})
    for article in article_list.find_all('li'):
        if article.a:
            lista_notas.append(article.a.get('href'))
    
    return lista_notas

Probemos la función

In [None]:
lista_notas = obtener_notas(soup_seccion)
lista_notas

In [None]:
r = requests.get(lista_notas[0])
if r.status_code == 200:
    # Procesamos la respuesta
    print('procesamos..')
else:
     # Informar el error
    print('informamos...')

In [None]:
url_nota = lista_notas[0]
print(url_nota)

In [None]:
url_mala = url_nota.replace('2','3')
print(url_mala)

In [None]:
try:
    nota = requests.get(url_mala)
except Exception as e:
    print('Error en la request:')
    print(e)
    print('\n')
    
print('El resto del programa continúa...')

## Clase 5
En esta clase vamos a empezar a descargar el contenido de la nota. Carguémosla

In [None]:
try:
    nota = requests.get(url_nota)
    if nota.status_code == 200:
        s_nota = BeautifulSoup(nota.text, 'lxml')
        # Extraemos el título
        titulo = s_nota.find('div', attrs={'class':'article-title'})
        print(titulo.text)
        # Extraemos la fecha
        fecha = s_nota.find('span', attrs={'pubdate':'pubdate'}).get('datetime')
        print(fecha)
        
except Exception as e:
    print('Error en la request:')
    print(e)
    print('\n')
    
    

### RETO
Obtener el resto de información de la nota:
- copete
- volanta
- cuerpo 
- autor

### CLASE
Vamos a extraer la imagen

In [None]:
media = s_nota.find('div', attrs={'class':'article-main-media-image'})

In [None]:
imagenes = media.find_all('img')
imagenes

Obtuvimos varias imágenes de distintos tamaños que se mostrarán en función del tamaño de la pantalla/navegador. Vemos que están ordenadas por tamaño así que intentaremos obtener la de mayor resolución

In [None]:
if len(imagenes) == 0:
    print('no se encontraron imágenes')
else:
    imagen = imagenes[-1]
    img_src = imagen.get('data-src')
    print(img_src)

In [None]:
img_req = requests.get(img_src)

In [None]:
img_req.status_code

In [None]:
img_req.content

In [None]:
from IPython.display import Image

In [None]:
Image(img_req.content)

## RETO
Armar una función que reciba el contenido de la nota parseado con BeautifulSoup y que devuelva un diccionario con la información extraída

La próxima clase vamos a unificar todo lo que aprendimos para consolidar el scraper