<img src='https://www.pagina12.com.ar/assets/media/logos/logo_pagina_12_n.svg?v=1.0.178' width=300></img> En este módulo veremos cómo utilizar las bibliotecas requests y bs4 para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario Página 12.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:

1._El navegador envía una solicitud a la URL pidiéndole información.

2._El servidor recibe la petición y procesa la respuesta.

3._El servidor envía la respuesta a la IP de la cual recibió la solicitud.

4._Nuestro navegador recibe la respuesta y la muestra formateada en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática y sistemática para luego extraer la información deseada de la respuesta. Utilizaremos requests para realizar peticiones y recibir las respuestas y bs4 para parsear la respuesta y extraer la información.
Te dejo unos links que tal vez te sean de utilidad:

  [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
  [Documentación de requests](https://requests.kennethreitz.org/en/master/)
  [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [1]:
import requests

In [2]:
url = 'https://www.pagina12.com.ar/'

In [3]:
p12 = requests.get(url)

In [4]:
p12.status_code

200

In [5]:
print(p12.text) #imprimir texto plano

<!DOCTYPE html><html class="no-js"><head><meta charset="utf-8"><title>Página12 | La otra mirada</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}</script><meta property="description" name="description" content="Notas focalizadas en el quehacer político de la Argentina."><meta property="fb:pages" name="fb:pages" content="1541638399393436"><meta property="og:locale" name="og:locale" content="es_AR"><meta property="og:title" name="og:title" content="Página12 | La otra mirada"><meta property="og:site_name" name="og:site_name" content="PAGINA12"><meta property="og:type" name="og:type" content="website"><meta property="og:url" name="og:url" content="https://www.pagina12.com.ar"><meta property="og:description" name="og:description" content="Notas

In [6]:
p12.content #la b indica que son bytes planos

b'<!DOCTYPE html><html class="no-js"><head><meta charset="utf-8"><title>P\xc3\xa1gina12 | La otra mirada</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","url": "https://www.pagina12.com.ar","logo": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png"}</script><meta property="description" name="description" content="Notas focalizadas en el quehacer pol\xc3\xadtico de la Argentina."><meta property="fb:pages" name="fb:pages" content="1541638399393436"><meta property="og:locale" name="og:locale" content="es_AR"><meta property="og:title" name="og:title" content="P\xc3\xa1gina12 | La otra mirada"><meta property="og:site_name" name="og:site_name" content="PAGINA12"><meta property="og:type" name="og:type" content="website"><meta property="og:url" name="og:url" content="https://www.pagina12.com.ar"><meta property="og:description" name="og:desc

In [7]:
p12.headers #Encabezado de la respuesta

{'Date': 'Sat, 11 Apr 2020 23:01:57 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': '__cfduid=d9447e36c29cfb552b98ac4b07e55c51a1586646117; expires=Mon, 11-May-20 23:01:57 GMT; path=/; domain=.pagina12.com.ar; HttpOnly; SameSite=Lax', 'Vary': 'Accept-Encoding', 'X-DNS-Prefetch-Control': 'off', 'Strict-Transport-Security': 'max-age=15724800; includeSubDomains', 'X-Download-Options': 'noopen', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '1; mode=block', 'X-Backend': 'prod_frontend_1', 'X-Backend-TTL': '180.000', 'X-Type': 'Dynamic URI', 'Age': '0', 'grace': '86400.000 none', 'ttl': '119.175', 'x-debug': '', 'X-Instance': 'cache-front-prod-varnish-76c5f88cf6-6j89c', 'x-restarts': '0', 'X-Cache': 'HIT (9)', 'CF-Cache-Status': 'DYNAMIC', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '5828551888e05829-DFW', 'Conten

In [8]:
p12.request.headers #Encabezado con el que sale la solicitud

{'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [9]:
p12.request.method 

'GET'

In [10]:
p12.request.url 

'https://www.pagina12.com.ar/'

# Parseando HTML con BeatifulSoup

In [11]:
from bs4 import BeautifulSoup

In [12]:
soup = BeautifulSoup(p12.text,'lxml') #El parser es el pedazo de codigo que corre detras de la funcion y que separa el texto largo

In [13]:
#EL metodo find de beatiful soup regresa el primer elemento que encuentra con ese tag
hot_sections = soup.find('ul', attrs = {'class':'hot-sections'}).find_all('li')

In [14]:
section = hot_sections[0]

In [15]:
section.a.get('href') #get me permite darle el nombre de un atributo para obtener

'https://www.pagina12.com.ar/secciones/el-pais'

In [16]:
section.a.get_text()

'El país'

In [17]:
link_secciones = [seccion.a.get('href') for seccion in hot_sections ]

In [18]:
link_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/el-mundo',
 'https://www.pagina12.com.ar/secciones/deportes',
 'https://www.pagina12.com.ar/secciones/contratapa',
 'https://www.pagina12.com.ar/secciones/recordatorios']

In [19]:
sec = requests.get(link_secciones[0])

In [20]:
sec_soup = BeautifulSoup(sec.text, 'lxml')

In [21]:
featured_article = sec_soup.find('div', attrs = {'class':'featured-article__container'})

In [22]:
featured_article

<div class="featured-article__container"><span class="title-prefix"><a href="https://www.pagina12.com.ar/259076-la-cidh-pide-que-los-acreedores-suspendan-el-pago-de-las-deu">Resolución de oficio del organismo internacional para enfrentar el COVID-19</a></span><h2><a href="https://www.pagina12.com.ar/259076-la-cidh-pide-que-los-acreedores-suspendan-el-pago-de-las-deu">La CIDH pide que los acreedores suspendan el pago de las deudas de los Estados Americanos</a></h2><a href="https://www.pagina12.com.ar/259076-la-cidh-pide-que-los-acreedores-suspendan-el-pago-de-las-deu"><p class="subhead"></p></a><div class="data-bar"><span class="date-1">11 de abril de 2020</span><span> | </span><span class="tag-1"><strong><span>Por </span><a href="https://www.pagina12.com.ar/autores/249-adriana-meyer">Adriana Meyer</a></strong></span></div></div>

In [23]:
featured_article.a.get('href')

'https://www.pagina12.com.ar/259076-la-cidh-pide-que-los-acreedores-suspendan-el-pago-de-las-deu'

In [24]:
article_list = sec_soup.find('ul', attrs = {'class':'article-list'})

In [25]:
print(article_list.prettify())

<ul class="article-list">
 <li>
 </li>
 <li>
  <div class="article-box-sections article-box--white-box article-box--printed article-box--with-image article-box--not-using-section-label" data-order="100">
   <div class="first-col column small-8 xsmall-8">
    <div class="article-box__container">
     <h5 class="hide-for-xsmall-only hide-for-small-only">
     </h5>
     <h2>
      <a href="https://www.pagina12.com.ar/259073-coronavirus-quienes-son-los-nuevos-exceptuados-de-la-cuarent">
       Coronavirus: Quiénes son los nuevos exceptuados de la cuarentena
       <i>
        |
       </i>
       <span>
        Las actividades y servicios con libre circulación
       </span>
      </a>
     </h2>
     <div class="data-bar">
      <span class="date-1">
       11 de abril de 2020
      </span>
     </div>
    </div>
   </div>
   <div class="second-col column small-4 xsmall-4 no-pad-left-sm">
    <div class="article-box__image-container">
     <a class="relative object-fit intrinsic-containe

In [26]:
article_list.find_all('li')[1].a.get('href')

'https://www.pagina12.com.ar/259073-coronavirus-quienes-son-los-nuevos-exceptuados-de-la-cuarent'

In [27]:
def obtencion_links(sec_soup):
    articles_links=[]
    featured_article=sec_soup.find('div', attrs = {'class':'featured-article__container'}).a.get('href')
    if featured_article:
        articles_links.append(featured_article)
    article_link = sec_soup.find('ul', attrs = {'class':'article-list'}).find_all('li')
    for article in article_link:
        try:
            articles_links.append(article.a.get('href'))
        except (AttributeError):
            pass
    return(articles_links)

In [28]:
lista_seccion_elpais = obtencion_links(sec_soup)

In [29]:
r = requests.get(url)

In [30]:
if r.status_code == 200:
    #Procesar la respuesta
    print('Conexion exitosa')
else:
    print('error')
    #Informamos el error

Conexion exitosa


In [31]:
url_nota = lista_seccion_elpais[0]

In [34]:
try:
    nota = requests.get(url_nota)
    if nota.status_code == 200:
        soup_nota = BeautifulSoup(nota.text, 'lxml')
        
        #Extraemos el titulo
        titulo = soup_nota.find('div', attrs = {'class':'article-titles'}).get_text()
        print(titulo + '\n') 
        
        #Extraermos la fecha del articulo
        fecha = soup_nota.find('span',attrs = {'pubdate':'pubdate'}).get('datetime')
        print(fecha + '\n')
        
        #Extraemos la volanta
        volanta = soup_nota.find('h2', attrs = {'class':'article-prefix'}).get_text()
        if volanta:
            print(volanta + '\n')
        else:
            print('Volanta vacia')
            
        #Extraemos el cuerpo del articulo
        body_paragraphs = soup_nota.find('div', attrs = {'class':'article-text'}).find_all('p')
        body = '\n\n'.join([p.text for p in body_paragraphs])
        print(body)
        
        #Extraemos el autor de la nota
        author = soup_nota.find('div', attrs={'class': 'article-author'})
        if author:
            print('Autor:', author)
        else:
            print('Autor: anónimo')
            
        
except Exception as e:
    print('Error:')
    print(e)
    print('_'*20)

Resolución de oficio del organismo internacional para enfrentar el COVID-19La CIDH pide que los acreedores suspendan el pago de las deudas de los Estados Americanos

2020-04-11

Resolución de oficio del organismo internacional para enfrentar el COVID-19

"Las medidas adoptadas por los Estados en la atención y contención del virus deben tener como centro el pleno respeto de los derechos humanos". Bajo éste enfoque --en un sentido amplio que abarca derechos económicos, sociales, culturales y ambientales (DESCA)-- la Comisión Interamericana de Derechos Humanos (CIDH) adoptó ayer la Resolución No. 01/20
Pandemia y Derechos Humanos en las Américas en la cual emitió un conjunto de recomendaciones a los Estados de la región para abordar el enfrentamiento al COVID-19 entre las cuales se destaca el pedido a los acreedores de la suspensión del pago de las deudas. Otro apartado especial de las recomendaciones se refiere a los grupos en especial situación de vulnerabilidad como las personas mayore

In [42]:
soup_nota.find('div', attrs = {'class':'article-titles'})

<div class="article-titles"><h2 class="article-prefix">Resolución de oficio del organismo internacional para enfrentar el COVID-19</h2><h1 class="article-title">La CIDH pide que los acreedores suspendan el pago de las deudas de los Estados Americanos</h1></div>

# Contenido Multimedia

In [None]:
media = soup_nota.find('div', attrs = {'class':'article-main-media-image'})

In [None]:
imagenes = media.find_all('img') #Las clases de la imagen dependen del navegador con el que estemos consultando la web

In [None]:
if len(imagenes) == 0:
    print('no se encontraron imagenes')
else:
    imagen = imagenes[-1]
    img_src = imagen.get('data-src')

In [None]:
print(img_src)

In [None]:
img_req = requests.get(img_src)

In [None]:
img_req.content #son los pixeles de esa imagen

In [None]:
from IPython.display import Image

In [None]:
Image(img_req.content)

# Diccionario para automatizacion 

In [None]:
def obtener_info(s_nota):
    
    # Creamos un diccionario vacío para poblarlo con la información
    ret_dict = {}
    
    # Extraemos la fecha
    fecha = s_nota.find('span',attrs = {'pubdate':'pubdate'})
    if fecha:
        ret_dict['fecha'] = fecha.get('datetime')
    else:
        ret_dict['fecha'] = None
    
    # Extraemos el título
    titulo = s_nota.find('div', attrs = {'class':'article-titles'}).get_text()
    if titulo:
        ret_dict['titulo'] = titulo
    else:
        ret_dict['titulo'] = None

    # Extraemos la volanta
    volanta = soup_nota.find('h2', attrs = {'class':'article-prefix'})
    if volanta:
        ret_dict['volanta'] = volanta.get_text()
    else:
        ret_dict['volanta'] = None
    
    # Extraemos el copete
    copete = s_nota.find('div', attrs={'class':'article-summary'})
    if copete:
        ret_dict['copete'] = volanta.get_text()
    else:
        ret_dict['copete'] = None
    
    autor = soup_nota.find('div', attrs={'class': 'article-author'})
    if autor:
        ret_dict['autor'] = autor.a.get_text()
    else:
        ret_dict['autor'] = 'Anonimo'
    
    # Extraemos la imagen
    media = s_nota.find('div', attrs = {'class':'article-main-media-image'})
    if media:
        imagenes = media.find_all('img')
        if len(imagenes) == 0:
            print('no se encontraron imágenes')
        else:
            imagen = imagenes[-1]
            img_src = imagen.get('data-src')
            try:
                img_req = requests.get(img_src)
                if img_req.status_code == 200:
                    ret_dict['imagen'] = img_req.content
                else:
                    ret_dict['imagen'] = None
            except:
                print('No se pudo obtener la imagen')
    else:
        print('No se encontró media')
        
    # Extraemos el cuerpo de la nota
    body_paragraphs = soup_nota.find('div', attrs = {'class':'article-text'}).find_all('p')
    body = '\n\n'.join([p.text for p in body_paragraphs])
    if body:
        ret_dict['texto'] = body
    else:
        ret_dict['texto'] = None
    
    return ret_dict

# Unificacion del scrapper para Pagina12

In [None]:
def scrape_nota(url):
    try:
        nota = requests.get(url)
    except Exception as e:
        print('Error en {} : {}'.format(url,e))
        return None
    if nota.status_code != 200:
        print(f'Error obteniendo nota {url} status code {nota.status_code}')
        return None
    
    s_nota = BeautifulSoup(nota.text, 'lxml')
    ret_dict = obtener_info(s_nota)
    ret_dict['url'] = url
    
    return ret_dict
    

In [None]:
scrape_nota(url_nota)

In [None]:
link_secciones

In [None]:
notas = []
for link in link_secciones:
    try:
        r = requests.get(link)
        if r.status_code == 200:
            soup = BeautifulSoup(r.text, 'lxml')
            notas.extend(obtencion_links(soup))
        else:
            print('No se pudo obtener la seccion {}'.format(link))
    except:
        print('No se pudo obtener la seccion {}'.format(link))       

In [None]:
data = []
for i,nota in enumerate(notas):
    print(f'Scrapando nota {i}/{len(notas)}')
    data.append(scrape_nota(nota))

In [None]:
len(data)

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head()

In [None]:
df.to_csv('Notas Pagina12.csv')