# Módulo 2: HTML: Requests y BeautifulSoup
## Parsing Pagina12

<img src='https://www.pagina12.com.ar/assets/media/logos/logo_pagina_12_n.svg?v=1.0.178' width=300></img>
En este módulo veremos cómo utilizar las bibliotecas `requests` y `bs4` para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario <a href='www.pagina12.com.ar'>Página 12</a>.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:
1. El navegador envía una solicitud a la URL pidiéndole información.
2. El servidor recibe la petición y procesa la respuesta.
3. El servidor envía la respuesta a la IP de la cual recibió la solicitud.
4. Nuestro navegador recibe la respuesta y la muestra **formateada** en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática y sistemática para luego extraer la información deseada de la respuesta. Utilizaremos `requests` para realizar peticiones y recibir las respuestas y `bs4` para *parsear* la respuesta y extraer la información.<br>
Te dejo unos links que tal vez te sean de utilidad:
- [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
- [Documentación de requests](https://requests.kennethreitz.org/en/master/)
- [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [43]:
import requests

In [44]:
url = 'https://www.3djuegos.com/'

In [45]:
p12 = requests.get(url)

In [46]:
p12.status_code

200

In [47]:
print(p12.text)

<!DOCTYPE html>
<html lang="es">
 <head>
   <script>
 var country = 'CO';
 var isSpainOrLatamUser = true;
</script>
 <title>3DJuegos - Videojuegos y Gaming | PC, PS5, PS4, Xbox, Switch y móvil</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
 <meta name="description" content="En 3DJuegos encontrarás Juegos, noticias, análisis, trucos y el todo contenido y últimas novedades para PC, Playstation, XBox y todas las plataformas. Gaming para gamers.">
      <meta name="robots" content="noodp">
<meta property="fb:admins" content="100000716994885">
<meta property="fb:pages" content="186408071394787">
<meta property="fb:app_id" content="761150624936666">
<meta name="application-name" content="3DJuegos">
<meta name="msapplication-tooltip" content="3DJuegos - Todo en videojuegos PC, PS5, PS4, Xbox, Switch, Stadia, Android y más">
<meta name="msapplication-starturl" content="https://www.3djuegos.com">

In [48]:
p12.content

b'<!DOCTYPE html>\n<html lang="es">\n <head>\n   <script>\n var country = \'CO\';\n var isSpainOrLatamUser = true;\n</script>\n <title>3DJuegos - Videojuegos y Gaming | PC, PS5, PS4, Xbox, Switch y m\xc3\xb3vil</title>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">\n<meta name="viewport" content="width=device-width, initial-scale=1.0">\n <meta name="description" content="En 3DJuegos encontrar\xc3\xa1s Juegos, noticias, an\xc3\xa1lisis, trucos y el todo contenido y \xc3\xbaltimas novedades para PC, Playstation, XBox y todas las plataformas. Gaming para gamers.">\n      <meta name="robots" content="noodp">\n<meta property="fb:admins" content="100000716994885">\n<meta property="fb:pages" content="186408071394787">\n<meta property="fb:app_id" content="761150624936666">\n<meta name="application-name" content="3DJuegos">\n<meta name="msapplication-tooltip" content="3DJuegos - Todo en videojuegos PC, PS5, PS4, Xbox, Switch, Stadia, Android y m\xc3\xa1s">\n<meta name="msa

In [49]:
p12.headers

{'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Fri, 24 Feb 2023 01:46:57 GMT', 'Cache-Control': 'public, s-maxage=120', 'Surrogate-Control': 'content="ESI/1.0"', 'Vary': 'Accept-Encoding', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Content-Encoding': 'gzip', 'x-clientip': '2800:484:868a:56a9:181d:826e:5d0d:c196', 'countrycode': 'CO', 'X-Cache-Hits': '6', 'Accept-Ranges': 'bytes', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 20a4932de861d5f21104db34596c9034.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'BOG50-P1', 'X-Amz-Cf-Id': '9-0Vl3TNFkT9xsLtbWEq-KrIAp_8olRA-W5EEcOoSr3t6OBghHngrQ=='}

In [50]:
p12.request.headers

{'User-Agent': 'python-requests/2.27.1', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [51]:
p12.request.method

'GET'

In [52]:
p12.request.url

'https://www.3djuegos.com/'

In [53]:
from bs4 import BeautifulSoup

In [54]:
s = BeautifulSoup(p12.text, 'lxml')

In [55]:
type(s)

bs4.BeautifulSoup

In [56]:
print(s.prettify())

<!DOCTYPE html>
<html lang="es">
 <head>
  <script>
   var country = 'CO';
 var isSpainOrLatamUser = true;
  </script>
  <title>
   3DJuegos - Videojuegos y Gaming | PC, PS5, PS4, Xbox, Switch y móvil
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="En 3DJuegos encontrarás Juegos, noticias, análisis, trucos y el todo contenido y últimas novedades para PC, Playstation, XBox y todas las plataformas. Gaming para gamers." name="description"/>
  <meta content="noodp" name="robots"/>
  <meta content="100000716994885" property="fb:admins"/>
  <meta content="186408071394787" property="fb:pages"/>
  <meta content="761150624936666" property="fb:app_id"/>
  <meta content="3DJuegos" name="application-name"/>
  <meta content="3DJuegos - Todo en videojuegos PC, PS5, PS4, Xbox, Switch, Stadia, Android y más" name="msapplication-tooltip"/>
  <meta content="https://www.3djuegos.co

In [58]:
secciones = s.find('div', attrs={'class':'o-siteheader-section__nav-wrapper'}).find_all('li')
secciones

[<li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/noticias">Noticias</a>
 </li>,
 <li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/analisis">Análisis</a>
 </li>,
 <li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/guias-y-trucos">Guías y trucos</a>
 </li>,
 <li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/lanzamientos/">Lanzamientos</a>
 </li>,
 <li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/top-100">Ranking</a>
 </li>,
 <li class="o-siteheader-section__viplinks-item">
 <a class="o-siteheader-section__viplinks-link" href="https://www.3djuegos.com/hardware">Hardware</a>
 </li>,
 <li class="o-sitehea

In [59]:
seccion = secciones[0]

In [60]:
seccion.a.get_text()

'Noticias'

In [61]:
seccion.a.get('href')

'https://www.3djuegos.com/noticias'

In [62]:
links_secciones = [seccion.a.get('href') for seccion in secciones]

In [63]:
links_secciones

['https://www.3djuegos.com/noticias',
 'https://www.3djuegos.com/analisis',
 'https://www.3djuegos.com/guias-y-trucos',
 'https://www.3djuegos.com/lanzamientos/',
 'https://www.3djuegos.com/top-100',
 'https://www.3djuegos.com/hardware',
 'https://www.3djuegos.com/pc',
 'https://www.3djuegos.com/ps5',
 'https://www.3djuegos.com/xbox-series-xs',
 'https://www.3djuegos.com/nintendo-switch',
 'https://www.3djuegos.com/android']

In [127]:
sec = requests.get(links_secciones[1])

In [128]:
sec.status_code

200

In [129]:
s_seccion = BeautifulSoup(sec.text, 'lxml')

In [130]:
print(s_seccion.prettify())

<!DOCTYPE html>
<html lang="es">
 <head>
  <script>
   var country = 'CO';
 var isSpainOrLatamUser = true;
  </script>
  <title>
   Análisis y reseñas de videojuegos de todas las plataformas - Opiniones - 3DJuegos
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="Descubre todos los análisis de tus videojuegos favoritos. de PC, PS5, PS4, Xbox, Nintendo Switch, Android y muchos más. Las reseñas y opiniones de la redacción de 3Djuegos" name="description"/>
  <meta content="noodp" name="robots"/>
  <meta content="100000716994885" property="fb:admins"/>
  <meta content="186408071394787" property="fb:pages"/>
  <meta content="761150624936666" property="fb:app_id"/>
  <meta content="3DJuegos" name="application-name"/>
  <meta content="3DJuegos - Todo en videojuegos PC, PS5, PS4, Xbox, Switch, Stadia, Android y más" name="msapplication-tooltip"/>
  <meta content="https://w

In [131]:
featured_article = s_seccion.find('div', attrs={'class':'section-recent-row'})
featured_article

<div class="section-recent-row">
<aside class="section-recent-aside sticky-banner">
<div class="section-deeplinking-container m-deeplinking-aside o-deeplinking-section">
<div class="section-deeplinking o-deeplinking-section_wrapper">
<span class="section-deeplinking-header">HOY SE HABLA DE</span>
<ul class="section-deeplinking-list" id="js-deeplinking-news-nav-links">
<li class="section-deeplinking-item"><a class="section-deeplinking-anchor" href="https://www.3djuegos.com/juegos/hogwarts-legacy/noticias/todo-ha-cambiado-para-videojuegos-warner-bros-ser-venta-necesaria-a-orgullo-que-diferencia-lanzamiento-hogwarts-legacy">Hogwarts Legacy</a></li>
<li class="section-deeplinking-item"><a class="section-deeplinking-anchor" href="https://www.3djuegos.com/juegos/elden-ring/noticias/si-esperabas-ver-a-harry-potter-en-hogwarts-legacy-y-te-lo-encuentras-en-elden-ring-no-estas-loco-es-un-mod-muy-conseguido">Harry Potter</a></li>
<li class="section-deeplinking-item"><a class="section-deeplinking-

In [132]:
featured_article.a.get('href')

'https://www.3djuegos.com/juegos/hogwarts-legacy/noticias/todo-ha-cambiado-para-videojuegos-warner-bros-ser-venta-necesaria-a-orgullo-que-diferencia-lanzamiento-hogwarts-legacy'

In [141]:
article_list = s.find('div', 
                       attrs={'class':'l-container l-container--wrapper'}
                       ).find_all('h2')

In [142]:
article_list

[<h2 class="m-river-item-special__title">
 <a href="https://www.3djuegos.com/juegos/suicide-squad-kill-the-justice-league/noticias/todos-anuncios-videos-state-of-play-resumen-evento-resident-evil-4-escuadron-suicida">Todos los anuncios y vídeos del State of Play; resumen del evento con Resident Evil 4, Escuadrón Suicida y más </a>
 </h2>,
 <h2 class="m-river-item-post__title">
 <a href="https://www.3djuegospc.com/mmo/ultima-expansion-destiny-2-se-puede-jugar-gratis-tiempo-limitado?utm_source=3djuegos&amp;utm_medium=network&amp;utm_campaign=repost">La última expansión de Destiny 2 se puede jugar gratis por tiempo limitado  </a>
 </h2>,
 <h2 class="m-river-item-post__title">
 <a href="https://www.3djuegos.com/varios/noticias/ibai-llanos-desvela-su-fichaje-estrella-para-proxima-jornada-kings-league-confirmado-historico-regreso-ronaldinho">Ibai Llanos desvela su fichaje estrella para la próxima jornada de la Kings League: Confirmado el histórico regreso de Ronaldinho</a>
 </h2>,
 <h2 class

In [158]:
def obtener_notas(soup):
    '''
    Función que recibe un objeto de BeautifulSoup de una página de una sección
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    # featured_article = soup.find('div', attrs={'class':'section-recent'})
    # if featured_article:
    #     lista_notas.append(featured_article.a.get('href'))
    # print(featured_article)
    
    # Obtengo el listado de artículos
    article_list = soup.find_all('div', attrs={'class':'section-recent-list'})
    print(article_list)
    for article in article_list.find_all('h2'):
        print(article)
        if article.a:
            lista_notas.append(article.a.get('href'))
    
    return lista_notas

In [159]:
lista_notas = obtener_notas(s_seccion)
lista_notas

[<div class="section-recent-list">
<article class="m-river-item-special">
<div class="m-river-item-special__image">
<a href="https://www.3djuegos.com/juegos/wanted-dead/analisis/mayor-fortaleza-este-juego-accion-acaba-siendo-tambien-su-principal-debilidad-analisis-wanted-dead">
<picture>
<source media="(min-width: 767px)" srcset="https://i.blogs.es/efbcdc/wanted-dead-analisis-review-resena/500_190.jpeg">
<source media="(min-width: 450px)" srcset="https://i.blogs.es/efbcdc/wanted-dead-analisis-review-resena/375_142.jpeg">
<source media="(min-width: 320px)" srcset="https://i.blogs.es/efbcdc/wanted-dead-analisis-review-resena/375_142.jpeg">
<img alt="La mayor fortaleza de este juego de acción acaba siendo también su principal debilidad: Análisis de Wanted Dead " sizes="100vw" src="https://i.blogs.es/efbcdc/wanted-dead-analisis-review-resena/375_142.jpeg" srcset="https://i.blogs.es/efbcdc/wanted-dead-analisis-review-resena/500_190.jpeg 767w, https://i.blogs.es/efbcdc/wanted-dead-analisis-r

AttributeError: ResultSet object has no attribute 'find_all'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [None]:
r = requests.get(url)

In [None]:
if r.status_code == 200:
    # Procesamos la respuesta
    pass
else:
    pass
    # informamos el error

In [None]:
url_mala = url.replace('2','3')
url_mala

In [None]:
try:
    requests.get(url_mala)
except Exception as e:
    print('error en la request')
    print(e)
    print('\n')

In [None]:
featured_article.b.get('href')

In [None]:
try:
    featured_article.b.get('href')
except:
    print("Tuviste un error")
print('continua el codigo')

In [None]:
url_nota = lista_notas[1]
url_nota