# Web Scraping "Página 12"
## Primer paso: request
### **Importar Librerías**
Lo primero que vamos a realizar es importar las librerías, en este caso vamos a necesitar requests para conectar la url y bs para realizar el scrapping. Aparte importamos pandas para crear y manipular un dataset con la información obtenida. Importamos además matplotlib para realizar lagunas gráficas.

In [32]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

### **Establecer conexión con la url**
Lo siguiente que vamos a realizar una solicitud a la url del portal del diario página12, para ello utilizamos de la libreria requests que importamos en las primeras líneas el método 
```python 
.get()
```

In [33]:
url = 'https://www.pagina12.com.ar/'
p12 = requests.get(url)

Para chequear que la solicitud fue establecida con éxito, ejecutamos:
    
```python
.status_code

```
Si está todo ok nos devería volver 200, para más info buscar sobre códigos de status HTTP

In [36]:
p12.status_code

200

Ahora que ya establecimos la conexión con la URL, vamos a imprimir el contenido html de la página con la comando:
```python
.text
```

In [4]:
print(p12.text)

<!DOCTYPE html><html class="no-js " lang="es"><head><meta charset="utf-8"><title>Página | 12: La otra mirada sobre Argentina y el mundo</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><link rel="canonical" href="https://www.pagina12.com.ar"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}</script><meta property="description" name="description" content="Información sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del país. Análisis, opinión y entrevistas."><meta property="fb:pages" n

## Segundo paso: BeautifulSoup
### Limpiar el texto html de la página
Lo siguiente que tenemos que hacer es extraer la información del código html que nos parezca relevante. Para ello vamos a utilizar la librería BeautifulSoup.\
Con esta librería lo que vamos a realizar es trozar nuestro código html y quedarnos con las partes que contengan la información que querramos.
Lo primero que hay que hacer es crear un objeto soup, lo hacemos con el método:
```python
BeautifulSoup(web_scrapear.text, 'lmxl')
 ```

In [38]:
# Lo guardamos en una variable
sopa = BeautifulSoup(p12.text, 'lxml')

In [6]:
# Chequeamos el tipo del dato
type(sopa)

bs4.BeautifulSoup

In [43]:
# Imprimos el contenido que guardamos en la variable y aplicamos método .prettify() para verlo más ordenado
print(sopa.prettify())

<!DOCTYPE html>
<html class="no-js" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Página | 12: La otra mirada sobre Argentina y el mundo
  </title>
  <meta content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg" name="google-site-verification"/>
  <link href="https://www.pagina12.com.ar" rel="canonical"/>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}
  </script>
  <meta content="Información sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del país. Análisis, opinión y entrevistas." name="description" property="des

### Seleccionamos y extraemos la información que queremos screapear
Lo siguiente que vamos a realizar es seleccionar la información que queremos escrapear, en este caso deseamos selecionar todas las secciones que nos ofrece el portal para realizar un scraping de todos los articulos que contienen cada una de ellas.\
Para extraer la información lo que vamos a hacer es utilizar el método .find(), con el cual vamos a poder definir que tipo de etiqueta o tag queremos extraer. Luego sobre el objeto que crea el método .find(), lo que podemos hacer es usar el método .find_all ('tag').

```python
.find('div', attrs={'class' : 'aca la caracteristica de ese class'}).find_all('tag')
```

In [40]:
# Extraemos las secciones y las guardamos en una variable
secciones = sopa.find('ul', attrs={'class' : 'horizontal-list main-sections hide-on-dropdown'}).find_all('li')

In [47]:
# Guardamos el primer elemento para poder trabajarlo más facilmente y luego replicarlo a las demás secciones
seccion = secciones[0]
# Visualizamos el contenido
print (seccion)

<li class="p12-separator--right--primary"><a href="https://www.pagina12.com.ar/secciones/el-pais">El país</a></li>


Analizamos lo que nos devuelve y observamos que nos interesan dos cosas, por un lado el título de la sección, en este caso "El país", y por otro lado la URL, la cual nos va a permitir a nosotros poder automatizar el programa de scraping.\
Para extraer esa información vamos a utilizar el método .get_text() para extraer la información del título de la sección y el método .get('href') para extraer la dirección de la url
```python
.get_text()
.get('href')
```

In [49]:
# Extraemos el nombre de la sección.
seccion.a.get_text()

'El país'

In [50]:
# Extraemos la URL
seccion.a.get('href')

'https://www.pagina12.com.ar/secciones/el-pais'

### **Creamos una lista con todas las secciones**
Ahora que ya extrajimos la información de una sección, podemos replicar lo mismo para las demás secciones.\
Para ello vamos a crear una lista que contenga cada una de ellas, accedemos a cada una de ellas y nos quedamos con el atributo ('href) y lo replicamos con un ciclo for a las demás listas que guardamos en la variables secciones.

In [54]:
# Creamos la lista, 
links_secciones = [seccion.a.get('href') for seccion in secciones]

In [55]:
# Imprimimos y chequeamos que ya haya salido todo ok
links_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/deportes',
 'https://www.pagina12.com.ar/secciones/ciencia',
 'https://www.pagina12.com.ar/secciones/el-mundo']

### **Extraemos las notas de cada seccion**
Ahora que ya tenemos todas las url que necesitamos de cada una de las secciones, procedemos a extraer las notas que contienen cada una de ellas. Para ello volvemos a quedarnos con un elemento para luego replicarlo a los demás.


In [56]:
# Guardamos al primer elemento en una variable
sec = requests.get(links_secciones[0])

In [58]:
# Chequeamos que este todo ok con la conexión, debe devolver 200
sec.status_code

200

In [18]:
# Creamos un objeto soup de la sección
sopa_seccion = BeautifulSoup(sec.text, 'lxml')

In [19]:
# Imprimimos para ver que tenemos
print (sopa_seccion.prettify())

<!DOCTYPE html>
<html amp="" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   El país | Página12
  </title>
  <!-- DUST PATH: /usr/src/app/src/widgets/fc_jsonLD.dust/ -->
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}
  </script>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "NewsArticle","mainEntityOfPage": {"@type": "WebPage","@id": "https://www.pagina12.com.ar/secciones/el-pais"},"headline": "El país | Página12","isAccessibleForFree": "False","image": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/lo

In [59]:
# Extraemos la información del artículo con el método find y find_all
art_top = sopa_seccion.find ('div', attrs={'class' : "article-item__content-footer-wrapper gutter-small deco-bar-here-left is-mobile-top"})

In [60]:
print(art_top)

<div class="article-item__content-footer-wrapper gutter-small deco-bar-here-left is-mobile-top"><div class="article-item__content"><!-- Title --><h1 class="title-list"><a href="/495156-el-atentado-los-complices-y-el-freno-judicial">El atentado,
los cómplices y
el freno judicial</a></h1><!-- Kicker --><p><a href="/495156-el-atentado-los-complices-y-el-freno-judicial">“Me quieren acusada, no de
víctima”, dijo la vicepresidenta</a></p></div><div class="article-item__footer"><!-- Author --><div class="author hide-on-mobile"><span>Por </span><a href="https://www.pagina12.com.ar/autores/1239-raul-kollmann">Raúl Kollmann</a><a href="https://www.pagina12.com.ar/autores/851-irina-hauser"> y Irina Hauser</a></div><!-- Date --><div class="date hide-on-mobile">05 de noviembre de 2022</div><!-- Author Mobile --><div class="author is-display-inline p12-separator-right-gray hide-on-desktop"><span>Por </span><a href="https://www.pagina12.com.ar/autores/1239-raul-kollmann">Raúl Kollmann</a><a href="htt

In [22]:
art_marginales = sopa_seccion.find ('div', attrs={'class' : "articles-list is-grid-col2 grid-mobile-row"})

In [23]:
print(art_marginales)

<div class="articles-list is-grid-col2 grid-mobile-row"><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/featured_article.dust/ --><article class="article-item article-item--featured"><!-- Image --><div class="article-item__header deco-bar-here-bottom is-mobile-left"><a href="/495124-cristina-kirchner-hay-que-reconstruir-un-acuerdo-democratico"><!-- DUST PATH: /usr/src/app/node_modules/frontend-core/views/widgets/fc_displayImg_amp.dust/ --><amp-img alt="El intendente de Pilar, Federico Achával, la vicepresidenta Cristina Kirchner y el titular de la UOM, Abel Furlán. (Fuente: Leandro Teysseire)" class="" height="313" layout="responsive" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-11/665981-3-a-leandroteysseire.JPG?itok=K_wnuvGr" srcset="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-11/665981-3-a-leandroteysseire.JPG?itok=K_wnuvGr 47

In [24]:
art_lista = sopa_seccion.find('div', attrs={'class' : "article-item__content-footer-wrapper gutter-small deco-bar-here-left"}).find_all()

In [25]:
print(art_lista)

[<div class="article-item__content"><!-- Article type --><!-- Title and Kicker --><h2 class="is-display-inline title-list"><a class="" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">Mauricio Macri convocó a una cumbre de emergencia para frenar la feroz disputa interna</a></h2><p class="is-display-inline"><a class="p12-separator--left--primary" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">Un desayuno para bajar la tensión entre Bullrich y Larreta</a></p></div>, <h2 class="is-display-inline title-list"><a class="" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">Mauricio Macri convocó a una cumbre de emergencia para frenar la feroz disputa interna</a></h2>, <a class="" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">Mauricio Macri convocó a una cumbre de emergencia para frenar la feroz disputa interna</a>, <p class="is-display-inline"><a class="p12-separator--left--primary" 

In [26]:
art_lista = sopa_seccion.find('div', attrs={'class' : "article-item__content-footer-wrapper gutter-small deco-bar-here-left"})

In [27]:
print(art_lista.prettify())

<div class="article-item__content-footer-wrapper gutter-small deco-bar-here-left">
 <div class="article-item__content">
  <!-- Article type -->
  <!-- Title and Kicker -->
  <h2 class="is-display-inline title-list">
   <a class="" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">
    Mauricio Macri convocó a una cumbre de emergencia para frenar la feroz disputa interna
   </a>
  </h2>
  <p class="is-display-inline">
   <a class="p12-separator--left--primary" href="/495092-mauricio-macri-convoco-a-una-cumbre-de-emergencia-para-frena">
    Un desayuno para bajar la tensión entre Bullrich y Larreta
   </a>
  </p>
 </div>
 <!-- Authors & Date -->
 <div class="article-item__footer">
  <div class="date is-display-inline">
   05 de noviembre de 2022
  </div>
 </div>
 <!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ -->
 <!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/article_teaser.dust/ -->
 <article class="art

<div class="article-item__content-footer-wrapper gutter-small deco-bar-here-left"><div class="article-item__content"><!-- Article type --><!-- Title and Kicker --><h2 class="is-display-inline title-list"><a class="" href="/493312-un-encuentro-para-afianzar-las-relaciones-bilaterales">Un encuentro para afianzar las relaciones bilaterales</a></h2><p class="is-display-inline"><a class="p12-separator--left--primary" href="/493312-un-encuentro-para-afianzar-las-relaciones-bilaterales">Alberto Fernández se reunió con el canciller cubano, Bruno Rodríguez</a></p></div><!-- Authors & Date --><div class="article-item__footer"><div class="date is-display-inline">29 de octubre de 2022</div></div><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/article_teaser.dust/ --><article class="article-item article-item--teaser"><!-- Image --><div class="article-item__header"><a href="/493313-manzur-afirm

In [74]:
links_secciones[0]

'https://www.pagina12.com.ar/secciones/el-pais'

In [None]:
def extraer_notas (sopa):
    '''
    Función que relice un objeto de BeautifulSoup de una página de secciones
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    
    # Obtego los artículos promocionados marginados
    
    # Obtengo la lista de noticias