# Módulo 2: HTML: Requests y BeautifulSoup
## Parsing Pagina12

<img src='https://www.pagina12.com.ar/assets/media/logos/logo_pagina_12_n.svg?v=1.0.178' width=300></img>
En este módulo veremos cómo utilizar las bibliotecas `requests` y `bs4` para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario <a href='www.pagina12.com.ar'>Página 12</a>.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:
1. El navegador envía una solicitud a la URL pidiéndole información.
2. El servidor recibe la petición y procesa la respuesta.
3. El servidor envía la respuesta a la IP de la cual recibió la solicitud.
4. Nuestro navegador recibe la respuesta y la muestra **formateada** en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática y sistemática para luego extraer la información deseada de la respuesta. Utilizaremos `requests` para realizar peticiones y recibir las respuestas y `bs4` para *parsear* la respuesta y extraer la información.<br>
Te dejo unos links que tal vez te sean de utilidad:
- [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
- [Documentación de requests](https://requests.kennethreitz.org/en/master/)
- [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [1]:
import requests

In [2]:
url = 'https://www.pagina12.com.ar/'

In [3]:
p12 = requests.get(url)

In [4]:
p12.status_code

200

In [5]:
print(p12.text)

<!DOCTYPE html><html class="no-js " lang="es"><head><meta charset="utf-8"><title>Página | 12: La otra mirada sobre Argentina y el mundo</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><link rel="canonical" href="https://www.pagina12.com.ar"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}</script><meta property="description" name="description" content="Información sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del país. Análisis, opinión y entrevistas."><meta property="fb:pages" n

In [6]:
p12.content

b'<!DOCTYPE html><html class="no-js " lang="es"><head><meta charset="utf-8"><title>P\xc3\xa1gina | 12: La otra mirada sobre Argentina y el mundo</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><link rel="canonical" href="https://www.pagina12.com.ar"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","name": "P\xc3\xa1gina12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}</script><meta property="description" name="description" content="Informaci\xc3\xb3n sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del pa\xc3\xads. An\xc3\xa1lisis, opini\xc3\xb3n

In [7]:
p12.headers

{'Date': 'Fri, 24 Feb 2023 00:45:33 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'vary': 'Accept-Encoding', 'x-dns-prefetch-control': 'off', 'strict-transport-security': 'max-age=15724800; includeSubDomains', 'x-download-options': 'noopen', 'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'x-etag': 'W/"6d646-vKV349uHmZU2+ZJBCvhYvdAqnh8"', 'x-backend': 'frontend', 'x-type': 'Dynamic URI', 'x-backend-ttl': '120.000', 'age': '98', 'grace': '86400.000 none', 'ttl': '21.093', 'x-instance': 'cache-front-prod-varnish-86654b9966-p5shb', 'x-restarts': '0', 'x-cache': 'hit cached', 'CF-Cache-Status': 'DYNAMIC', 'Server-Timing': 'cf-q-config;dur=7.0000005507609e-06', 'Server': 'cloudflare', 'CF-RAY': '79e42ddd6ec2334f-MIA', 'Content-Encoding': 'br'}

In [8]:
p12.request.headers

{'User-Agent': 'python-requests/2.27.1', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [9]:
p12.request.method

'GET'

In [10]:
p12.request.url

'https://www.pagina12.com.ar/'

In [11]:
from bs4 import BeautifulSoup

In [12]:
s = BeautifulSoup(p12.text, 'lxml')

In [13]:
type(s)

bs4.BeautifulSoup

In [14]:
print(s.prettify())

<!DOCTYPE html>
<html class="no-js" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Página | 12: La otra mirada sobre Argentina y el mundo
  </title>
  <meta content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg" name="google-site-verification"/>
  <link href="https://www.pagina12.com.ar" rel="canonical"/>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}
  </script>
  <meta content="Información sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del país. Análisis, opinión y entrevistas." name="description" property="des

In [15]:
secciones = s.find('ul', attrs={'class':'horizontal-list main-sections hide-on-dropdown'}).find_all('li')
secciones

[<li class="p12-separator--right--blue"><a href="https://www.pagina12.com.ar/secciones/el-pais">El país</a></li>,
 <li class="p12-separator--right--blue"><a href="https://www.pagina12.com.ar/secciones/economia">Economía</a></li>,
 <li class="p12-separator--right--blue"><a href="https://www.pagina12.com.ar/secciones/sociedad">Sociedad</a></li>,
 <li class="no-separator-on-1040 p12-separator--right--blue"><a href="https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos">Espectáculos</a></li>,
 <li class="hide-on-1040 p12-separator--right--blue"><a href="https://www.pagina12.com.ar/secciones/deportes">Deportes</a></li>,
 <li class="hide-on-1040 p12-separator--right--blue"><a href="https://www.pagina12.com.ar/secciones/ciencia">Ciencia</a></li>,
 <li class="hide-on-1040"><a href="https://www.pagina12.com.ar/secciones/el-mundo">El mundo</a></li>]

In [16]:
seccion = secciones[0]

In [17]:
seccion.a.get_text()

'El país'

In [18]:
seccion.a.get('href')

'https://www.pagina12.com.ar/secciones/el-pais'

In [19]:
links_secciones = [seccion.a.get('href') for seccion in secciones]

In [20]:
links_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/deportes',
 'https://www.pagina12.com.ar/secciones/ciencia',
 'https://www.pagina12.com.ar/secciones/el-mundo']

In [21]:
sec = requests.get(links_secciones[0])

In [22]:
sec.status_code

200

In [23]:
s_seccion = BeautifulSoup(sec.text, 'lxml')

In [24]:
print(s_seccion.prettify())

<!DOCTYPE html>
<html amp="" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   El país | Página12
  </title>
  <!-- DUST PATH: /usr/src/app/src/widgets/fc_jsonLD.dust/ -->
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}
  </script>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "NewsArticle","mainEntityOfPage": {"@type": "WebPage","@id": "https://www.pagina12.com.ar/secciones/el-pais"},"headline": "El país | Página12","isAccessibleForFree": "False","image": {"@type": "ImageObject","url": "https://images.pagina12.com.ar/styles/focal

In [25]:
featured_article = s_seccion.find('div', attrs={'class':'main-content'})
featured_article

<div class="main-content" id="main-content"><section class="top-content" id="top-content"><!-- Hero --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/main_article.dust/ --><article class="article-item article-item--main"><!-- Image --><div class="article-item__header deco-bar-here"><a href="/526279-mario-cimadevilla-muchos-jueces-priorizan-la-relacion-con-el"><!-- DUST PATH: /usr/src/app/node_modules/frontend-core/views/widgets/fc_displayImg_amp.dust/ --><amp-img alt="" class="" height="313" layout="responsive" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2023-02/700346-na07fo01-21.jpg?itok=L_5b1IGn" srcset="https://images.pagina12.com.ar/styles/focal_3_2_300x200/public/2023-02/700346-na07fo01-21.jpg?itok=JrxqoqW9 300w, https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2023-02/700346-na07fo01-21.jpg?itok=L_5b1IGn 470w" width="470"><noscript><img alt="" height="313" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/

In [26]:
featured_article.a.get('href')

'/526279-mario-cimadevilla-muchos-jueces-priorizan-la-relacion-con-el'

In [27]:
article_list = s_seccion.find('section', attrs={'class':'list-content'})

In [28]:
article_list

<section class="list-content" id="list-content"><!-- Featured Articles --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list.dust/ --><div class="articles-list is-grid-col2 grid-mobile-row"><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/featured_article.dust/ --><article class="article-item article-item--featured"><!-- Image --><div class="article-item__header deco-bar-here-bottom is-mobile-left"><a href="/526275-paritarias-docentes-propuestas-con-sabor-a-poco"><!-- DUST PATH: /usr/src/app/node_modules/frontend-core/views/widgets/fc_displayImg_amp.dust/ --><amp-img alt="" class="" height="313" layout="responsive" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2023-02/700388-695481-docentes-0-0.jpg?itok=sSkf32YT" srcset="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2023-02/700388-695481-docentes-0-0.jpg?itok=sSkf32YT 

In [31]:
def obtener_notas(soup):
    '''
    Función que recibe un objeto de BeautifulSoup de una página de una sección
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    featured_article = soup.find('div', attrs={'class':'main-content'})
    if featured_article:
        lista_notas.append(featured_article.a.get('href'))
    
    # Obtengo el listado de artículos
    article_list = soup.find('section', attrs={'class':'list-content'})
    for article in article_list.find_all('li'):
        if article.a:
            lista_notas.append(article.a.get('href'))
    
    return lista_notas

In [32]:
lista_notas = obtener_notas(s_seccion)
lista_notas

['/526279-mario-cimadevilla-muchos-jueces-priorizan-la-relacion-con-el',
 'https://www.pagina12.com.ar',
 'http://octubre.com',
 'https://www.facebook.com/Pagina12ok/',
 'https://twitter.com/pagina12',
 'https://www.instagram.com/pagina12/',
 'https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg',
 'https://t.me/pagina12',
 'http://radioam750.com.ar',
 'https://ip.digital',
 'https://mucharadio.com.ar/',
 'https://oktubre.fm',
 'http://carasycaretas.org.ar',
 'https://www.instagram.com/salascarasycaretas/?utm_medium=wwwp12',
 'https://octubretv.com/',
 'http://www.editorialoctubre.com.ar',
 'http://elplanetaurbano.com',
 'https://fmlike.com.ar/',
 'http://www.iso.edu.ar',
 'http://umet.edu.ar',
 'http://latinoamericapiensa.com',
 'http://radiomalena.com',
 'https://fmblackie.com.ar/',
 'https://www.elnueve.com.ar/',
 'https://fmaspen.com/',
 'https://www.pagina12.com.ar/tags/53385-',
 'https://www.pagina12.com.ar/tags/10713-',
 'https://www.pagina12.com.ar/tags/4875-',
 'https://ww

In [33]:
r = requests.get(url)

In [34]:
if r.status_code == 200:
    # Procesamos la respuesta
    pass
else:
    pass
    # informamos el error

In [35]:
url_mala = url.replace('2','3')
url_mala

'https://www.pagina13.com.ar/'

In [36]:
try:
    requests.get(url_mala)
except Exception as e:
    print('error en la request')
    print(e)
    print('\n')

error en la request
HTTPSConnectionPool(host='www.pagina13.com.ar', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fc8d4b434c0>: Failed to establish a new connection: [Errno 8] nodename nor servname provided, or not known'))




In [37]:
featured_article.b.get('href')

AttributeError: 'NoneType' object has no attribute 'get'

In [39]:
try:
    featured_article.b.get('href')
except:
    print("Tuviste un error")
print('continua el codigo')

Tuviste un error
continua el codigo
