# Módulo 2: HTML: Requests y BeautifulSoup
## Parsing Pagina12

<img src='https://www.pagina12.com.ar/assets/media/logos/logo_pagina_12_n.svg?v=1.0.178' width=300></img>
En este módulo veremos cómo utilizar las bibliotecas `requests` y `bs4` para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario <a href='www.pagina12.com.ar'>Página 12</a>.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:
1. El navegador envía una solicitud a la URL pidiéndole información.
2. El servidor recibe la petición y procesa la respuesta.
3. El servidor envía la respuesta a la IP de la cual recibió la solicitud.
4. Nuestro navegador recibe la respuesta y la muestra **formateada** en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática y sistemática para luego extraer la información deseada de la respuesta. Utilizaremos `requests` para realizar peticiones y recibir las respuestas y `bs4` para *parsear* la respuesta y extraer la información.<br>
Te dejo unos links que tal vez te sean de utilidad:
- [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
- [Documentación de requests](https://requests.kennethreitz.org/en/master/)
- [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [1]:
import requests

In [2]:
url = 'https://www.pagina12.com.ar/'

In [3]:
p12 = requests.get(url)

In [4]:
p12.status_code

200

In [5]:
print(p12.text)

<!DOCTYPE html><html class="no-js"><head><meta charset="utf-8"><title>Página12 | La otra mirada</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}</script><meta property="description" name="description" content="Notas focalizadas en el quehacer político de la Argentina."><meta property="fb:pages" name="fb:pages" content="1541638399393436"><meta property="og:locale" name="og:locale" content="es_AR"><meta property="og:title" name="og:title" content="Página12 | La otra mirada"><meta property="og:site_name" name="og:site_name" content="PAGINA12"><meta property="og:type" name="og:type" content="website"><meta property="og:url" name="og:url" content="https://www.pagina12.com.ar"><meta property="og:description" name="og:description" content="Notas

In [6]:
p12.content

b'<!DOCTYPE html><html class="no-js"><head><meta charset="utf-8"><title>P\xc3\xa1gina12 | La otra mirada</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}</script><meta property="description" name="description" content="Notas focalizadas en el quehacer pol\xc3\xadtico de la Argentina."><meta property="fb:pages" name="fb:pages" content="1541638399393436"><meta property="og:locale" name="og:locale" content="es_AR"><meta property="og:title" name="og:title" content="P\xc3\xa1gina12 | La otra mirada"><meta property="og:site_name" name="og:site_name" content="PAGINA12"><meta property="og:type" name="og:type" content="website"><meta property="og:url" name="og:url" content="https://www.pagina12.com.ar"><meta property="og:description" name="og:desc

In [7]:
p12.headers

{'Date': 'Tue, 05 Nov 2019 20:45:28 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': '__cfduid=d2d1e05fb376e2070b8415e4e4df207f01572986727; expires=Wed, 04-Nov-20 20:45:27 GMT; path=/; domain=.pagina12.com.ar; HttpOnly', 'Vary': 'Accept-Encoding', 'X-DNS-Prefetch-Control': 'off', 'Strict-Transport-Security': 'max-age=15724800; includeSubDomains', 'X-Download-Options': 'noopen', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '1; mode=block', 'X-Backend': 'prod_frontend_1', 'X-Backend-TTL': '90.000', 'X-Type': 'Dynamic URI', 'Age': '10', 'grace': '86400.000 none', 'ttl': '19.140', 'x-debug': '', 'X-Instance': 'cache-front-prod-varnish-776549856d-s4jjf', 'x-restarts': '0', 'X-Cache': 'HIT (63)', 'CF-Cache-Status': 'DYNAMIC', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '5311abe85cd6e788-MDE', 'Content-Encoding': '

In [8]:
p12.request.headers

{'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [9]:
p12.request.method

'GET'

In [10]:
p12.request.url

'https://www.pagina12.com.ar/'

In [11]:
from bs4 import BeautifulSoup

In [12]:
s = BeautifulSoup(p12.text, 'lxml')

In [13]:
type(s)

bs4.BeautifulSoup

In [14]:
print(s.prettify())

<!DOCTYPE html>
<html class="no-js">
 <head>
  <meta charset="utf-8"/>
  <title>
   Página12 | La otra mirada
  </title>
  <meta content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg" name="google-site-verification"/>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}
  </script>
  <meta content="Notas focalizadas en el quehacer político de la Argentina." name="description" property="description"/>
  <meta content="1541638399393436" name="fb:pages" property="fb:pages"/>
  <meta content="es_AR" name="og:locale" property="og:locale"/>
  <meta content="Página12 | La otra mirada" name="og:title" property="og:title"/>
  <meta content="PAGINA12" name="og:site_name" property="og:site_name"/>
  <meta content="website" name="og:type" property="og:type"/>
  <meta content="https://www.pagina12.com.ar" name="og:url" property="og:url"/>
  <meta 

In [15]:
secciones = s.find('ul', attrs={'class':'hot-sections'}).find_all('li')
secciones

[<li class=""><a href="https://www.pagina12.com.ar/secciones/el-pais">El país</a></li>,
 <li class=""><a href="https://www.pagina12.com.ar/secciones/universidad-diario">Universidad</a></li>,
 <li class="no-border"><a href="https://www.pagina12.com.ar/secciones/la-ventana">La ventana</a></li>,
 <li class="show-for-large"><a href="https://www.pagina12.com.ar/secciones/economia">Economía</a></li>,
 <li class="show-for-large"><a href="https://www.pagina12.com.ar/secciones/sociedad">Sociedad</a></li>,
 <li class="show-for-large"><a href="https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos">Cultura y Espectáculos</a></li>,
 <li class="show-for-large"><a href="https://www.pagina12.com.ar/secciones/el-mundo">El mundo</a></li>,
 <li class="show-for-large"><a href="https://www.pagina12.com.ar/secciones/deportes">Deportes</a></li>]

In [16]:
seccion = secciones[0]

In [17]:
seccion.a.get_text()

'El país'

In [18]:
seccion.a.get('href')

'https://www.pagina12.com.ar/secciones/el-pais'

In [19]:
links_secciones = [seccion.a.get('href') for seccion in secciones]

In [20]:
links_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/universidad-diario',
 'https://www.pagina12.com.ar/secciones/la-ventana',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/el-mundo',
 'https://www.pagina12.com.ar/secciones/deportes']

In [21]:
sec = requests.get(links_secciones[0])

In [22]:
sec.status_code

200

In [23]:
s_seccion = BeautifulSoup(sec.text, 'lxml')

In [24]:
print(s_seccion.prettify())

<!DOCTYPE html>
<html class="no-js">
 <head>
  <meta charset="utf-8"/>
  <title>
   El país | Página12
  </title>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}
  </script>
  <meta content="La puja política de coyuntura y la reflexión de prestigiosos columnistas sobre la actualidad.
" name="description" property="description"/>
  <meta content="1541638399393436" name="fb:pages" property="fb:pages"/>
  <meta content="es_AR" name="og:locale" property="og:locale"/>
  <meta content="El país | Página12" name="og:title" property="og:title"/>
  <meta content="PAGINA12" name="og:site_name" property="og:site_name"/>
  <meta content="website" name="og:type" property="og:type"/>
  <meta content="https://www.pagina12.com.ar/secciones/el-pais" name="og:url" property="og:url"/>
  <meta content="La puja política de coyuntura y la reflexión de

In [25]:
featured_article = s_seccion.find('div', attrs={'class':'featured-article__container'})
featured_article

<div class="featured-article__container"><span class="title-prefix"><a href="https://www.pagina12.com.ar/229345-laura-alonso-la-marie-kondo-de-macri">La cuestionada funcionaria celebró en Twitter la limpieza y el orden que hizo en el edificio de la OA</a></span><h2><a href="https://www.pagina12.com.ar/229345-laura-alonso-la-marie-kondo-de-macri">Laura Alonso, la Marie Kondo de Macri</a></h2><a href="https://www.pagina12.com.ar/229345-laura-alonso-la-marie-kondo-de-macri"><p class="subhead"></p></a><div class="data-bar"><span class="date-1">05 de noviembre de 2019</span></div></div>

In [26]:
featured_article.a.get('href')

'https://www.pagina12.com.ar/229345-laura-alonso-la-marie-kondo-de-macri'

In [27]:
article_list = s_seccion.find('ul', attrs={'class':'article-list'})

In [28]:
article_list

<ul class="article-list"><li></li><li><div class="article-box-sections article-box--white-box article-box--printed article-box--with-image article-box--not-using-section-label" data-order="100"><div class="first-col column small-8 xsmall-8"><div class="article-box__container"><h5 class="hide-for-xsmall-only hide-for-small-only"></h5><h2><a href="https://www.pagina12.com.ar/229337-estamos-cerca-de-la-paridad-de-genero">¿Estamos cerca de la paridad de género?<i>|</i><span>Opinión / A 72 años de la incorporación del voto femenino</span></a></h2><div class="data-bar"><span class="date-1">05 de noviembre de 2019</span><i>|</i><span class="tag-1">Por <a class="no-link">Gisela Riveiro Oyarzabal y Marina Salzmann</a></span></div></div></div><div class="second-col column small-4 xsmall-4 no-pad-left-sm"><div class="article-box__image-container"><a class="relative object-fit intrinsic-container intrinsic-container-16x9" href="https://www.pagina12.com.ar/229337-estamos-cerca-de-la-paridad-de-gene

In [29]:
def obtener_notas(soup):
    '''
    Función que recibe un objeto de BeautifulSoup de una página de una sección
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    featured_article = soup.find('div', attrs={'class':'featured-article__container'})
    if featured_article:
        lista_notas.append(featured_article.a.get('href'))
    
    # Obtengo el listado de artículos
    article_list = soup.find('ul', attrs={'class':'article-list'})
    for article in article_list.find_all('li'):
        if article.a:
            lista_notas.append(article.a.get('href'))
    
    return lista_notas

In [30]:
lista_notas = obtener_notas(s_seccion)
lista_notas

['https://www.pagina12.com.ar/229345-laura-alonso-la-marie-kondo-de-macri',
 'https://www.pagina12.com.ar/229337-estamos-cerca-de-la-paridad-de-genero',
 'https://www.pagina12.com.ar/229321-pichetto-dijo-que-la-oposicion-y-la-iglesia-inventaron-el-ha',
 'https://www.pagina12.com.ar/229316-rafael-correa-y-alberto-fernandez-juntos-en-mexico',
 'https://www.pagina12.com.ar/229314-alberto-fernandez-advirtio-sobre-la-situacion-critica-que-de',
 'https://www.pagina12.com.ar/229305-reves-para-daniel-santoro-y-respaldo-a-la-comision-provincia',
 'https://www.pagina12.com.ar/229298-zaffaroni-algunas-irregularidades-no-tienen-precedente-en-la',
 'https://www.pagina12.com.ar/229282-alberto-fernandez-con-carlos-slim-y-otros-empresarios-mexica',
 'https://www.pagina12.com.ar/229166-este-martes-hay-paro-en-las-escuelas-portenas',
 'https://www.pagina12.com.ar/229168-vuelve-la-paritaria-nacional-docente',
 'https://www.pagina12.com.ar/229178-un-incendio-destruyo-la-apdh-de-la-matanza',
 'https://www.

In [31]:
r = requests.get(url)

In [32]:
if r.status_code == 200:
    # Procesamos la respuesta
else:
    # informamos el error

200

In [33]:
url_mala = url.replace('2','3')
url_mala

'https://www.pagina13.com.ar/'

In [36]:
try:
    requests.get(url_mala)
except Exception as e:
    print('error en la request')
    print(e)
    print('\n')

error en la request
HTTPSConnectionPool(host='www.pagina13.com.ar', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7f4bae42b160>: Failed to establish a new connection: [Errno -2] Name or service not known',))




In [38]:
featured_article.b.get('href')

AttributeError: 'NoneType' object has no attribute 'get'

In [37]:
try:
    featured_article.b.get('href')
except:
    pass
print('continua el codigo')

continua el codigo
