# Web Scraping "Página 12"
## Primer paso: request
### **Importar Librerías**
Lo primero que vamos a realizar es importar las librerías, en este caso vamos a necesitar requests para conectar la url y bs para realizar el scrapping. Aparte importamos pandas para crear y manipular un dataset con la información obtenida. Importamos además matplotlib para realizar lagunas gráficas.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### **Establecer conexión con la url**
Lo siguiente que vamos a realizar una solicitud a la url del portal del diario página12, para ello utilizamos de la libreria requests que importamos en las primeras líneas el método 
```python 
.get()
```

In [2]:
url = 'https://www.pagina12.com.ar/'
p12 = requests.get(url)

Para chequear que la solicitud fue establecida con éxito, ejecutamos:
    
```python
.status_code

```
Si está todo ok nos devería volver 200, para más info buscar sobre códigos de status HTTP

In [3]:
p12.status_code


200

Ahora que ya establecimos la conexión con la URL, vamos a imprimir el contenido html de la página con la comando:
```python
.text
```

In [4]:
print(p12.text)

<!DOCTYPE html><html class="no-js " lang="es"><head><meta charset="utf-8"><title>Página | 12: La otra mirada sobre Argentina y el mundo</title><meta name="google-site-verification" content="x6zSdT0DBcKDmridH4LpEVrCmxcOunR2dgBQVmuL6fg"><link rel="canonical" href="https://www.pagina12.com.ar"><script type="application/ld+json">{"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}</script><meta property="description" name="description" content="Información sobre Argentina y el mundo. Noticias en fotos y videos de los principales hechos y acontecimientos del país. Análisis, opinión y entrevistas."><meta property="fb:pages" n

## Segundo paso: BeautifulSoup
### Limpiar el texto html de la página
Lo siguiente que tenemos que hacer es extraer la información del código html que nos parezca relevante. Para ello vamos a utilizar la librería BeautifulSoup.\
Con esta librería lo que vamos a realizar es trozar nuestro código html y quedarnos con las partes que contengan la información que querramos.
Lo primero que hay que hacer es crear un objeto soup, lo hacemos con el método:
```python
BeautifulSoup(web_scrapear.text, 'lmxl')
 ```

In [5]:
# Lo guardamos en una variable
sopa = BeautifulSoup(p12.text, 'lxml')

In [6]:
# Chequeamos el tipo del dato
type(sopa)

bs4.BeautifulSoup

Imprimos el contenido que guardamos en la variable y aplicamos método .prettify() para verlo más ordenado
print(sopa.prettify())

### Seleccionamos y extraemos la información que queremos screapear
Lo siguiente que vamos a realizar es seleccionar la información que queremos escrapear, en este caso deseamos selecionar todas las secciones que nos ofrece el portal para realizar un scraping de todos los articulos que contienen cada una de ellas.\
Para extraer la información lo que vamos a hacer es utilizar el método .find(), con el cual vamos a poder definir que tipo de etiqueta o tag queremos extraer. Luego sobre el objeto que crea el método .find(), lo que podemos hacer es usar el método .find_all ('tag').

```python
.find('div', attrs={'class' : 'aca la caracteristica de ese class'}).find_all('tag')
```

In [7]:
# Extraemos las secciones y las guardamos en una variable
secciones = sopa.find('ul', attrs={'class' : 'horizontal-list main-sections hide-on-dropdown'}).find_all('li')

In [8]:
# Guardamos el primer elemento para poder trabajarlo más facilmente y luego replicarlo a las demás secciones
seccion = secciones[0]
# Visualizamos el contenido
print (seccion)

<li class="p12-separator--right--primary"><a href="https://www.pagina12.com.ar/secciones/el-pais">El país</a></li>


Analizamos lo que nos devuelve y observamos que nos interesan dos cosas, por un lado el título de la sección, en este caso "El país", y por otro lado la URL, la cual nos va a permitir a nosotros poder automatizar el programa de scraping.\
Para extraer esa información vamos a utilizar el método .get_text() para extraer la información del título de la sección y el método .get('href') para extraer la dirección de la url
```python
.get_text()
.get('href')
```

In [9]:
# Extraemos el nombre de la sección.
seccion.a.get_text()

'El país'

In [10]:
# Extraemos la URL
seccion.a.get('href')

'https://www.pagina12.com.ar/secciones/el-pais'

### **Creamos una lista con todas las secciones**
Ahora que ya extrajimos la información de una sección, podemos replicar lo mismo para las demás secciones.\
Para ello vamos a crear una lista que contenga cada una de ellas, accedemos a cada una de ellas y nos quedamos con el atributo ('href) y lo replicamos con un ciclo for a las demás listas que guardamos en la variables secciones.

In [11]:
# Creamos la lista, 
links_secciones = [seccion.a.get('href') for seccion in secciones]

In [12]:
# Imprimimos y chequeamos que ya haya salido todo ok
links_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/deportes',
 'https://www.pagina12.com.ar/secciones/ciencia',
 'https://www.pagina12.com.ar/secciones/el-mundo']

### **Extraemos las notas de cada seccion**
Ahora que ya tenemos todas las url que necesitamos de cada una de las secciones, procedemos a extraer las notas que contienen cada una de ellas. Para ello volvemos a quedarnos con un elemento para luego replicarlo a los demás.


In [13]:
# Guardamos al primer elemento en una variable, con un nuevo request, luego pasamos el mismo método a toda la lista de links
sec = requests.get(links_secciones[0])

In [14]:
# Chequeamos que este todo ok con la conexión, debe devolver 200
sec.status_code

200

### Extraer texto de las notas
Ahora lo que vamos a realizar es extraer las url a las notas.\
Debemos repetir el proceso que hicimos anteriormente, por lo cual creamos una sopa de la sección, y luego analizamos el contenido que queremos extraer. \


In [15]:
# Lo que tenemos que hacer ahora es volver a partir el elemento con el BeautifulSoup, de tla manera creamos un objeto soup de la sección
sopa_seccion = BeautifulSoup(sec.text, 'lxml')

In [16]:
# Imprimimos para ver que tenemos
print (sopa_seccion.prettify())

<!DOCTYPE html>
<html amp="" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   El país | Página12
  </title>
  <!-- DUST PATH: /usr/src/app/src/widgets/fc_jsonLD.dust/ -->
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "Organization","name": "Página12","url": "https://www.pagina12.com.ar","logo": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/logo_default_p12.png","width": "600","height": "60"},"sameAs":["https://twitter.com/pagina12","https://www.youtube.com/channel/UCJNDedOnljCssaiRZqg8-Dg","https://www.instagram.com/pagina12/","https://www.facebook.com/Pagina12ok/"]}
  </script>
  <script type="application/ld+json">
   {"@context": "http://schema.org","@type": "NewsArticle","mainEntityOfPage": {"@type": "WebPage","@id": "https://www.pagina12.com.ar/secciones/el-pais"},"headline": "El país | Página12","isAccessibleForFree": "False","image": {"@type": "ImageObject","url": "https://www.pagina12.com.ar/assets/media/lo

* Si observamos la web de página12 podemos obserrvar que tenemos una noticia principal que es la que aparece primero y en mayor dimensión. Vemos que se encuentra dentro de ```<div>```y corresponde a una clase  ```<article-item_content>```.\
* Vamos a extraer esa información del artículo promocionado y la vamos a guardar en una variable.

In [17]:
# Extraemos la información del artículo promocionado y lo guardamos en una variable con el método find y find_all,
art_top = sopa_seccion.find('div', attrs={'class' : "article-item__content-footer-wrapper gutter-small deco-bar-here-left is-mobile-top"})

In [18]:
print (art_top)

<div class="article-item__content-footer-wrapper gutter-small deco-bar-here-left is-mobile-top"><div class="article-item__content"><!-- Title --><h2 class="h1 title-list"><a href="/508292-la-corte-ordeno-que-se-le-tome-juramento-a-los-diputados-des">La Corte ordenó que se le tome juramento a los diputados designados para Magistratura</a></h2><!-- Kicker --><p><a href="/508292-la-corte-ordeno-que-se-le-tome-juramento-a-los-diputados-des">Dejó sin efecto la resolución de Cecilia Moreau</a></p></div><div class="article-item__footer"><!-- Author --><!-- Date --><div class="date hide-on-mobile">15 de diciembre de 2022</div><!-- Author Mobile --><!-- Date Mobile --><div class="date is-display-inline hide-on-desktop">15 de diciembre de 2022</div></div></div>


* Advertimos que también existen dos artículos más que podríamos llamarlos márginales, que también están patrocinados, por lo cual, vamos a guaradrlos en una variable.

In [19]:
sopa_seccion.find('div', attrs={'class' : "articles-list is-grid-col2 grid-mobile-row"})

<div class="articles-list is-grid-col2 grid-mobile-row"><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/featured_article.dust/ --><article class="article-item article-item--featured"><!-- Image --><div class="article-item__header deco-bar-here-bottom is-mobile-left"><a href="/508253-un-atentado-pensado-con-tiempo-una-testigo-confirmo-que-saba"><!-- DUST PATH: /usr/src/app/node_modules/frontend-core/views/widgets/fc_displayImg_amp.dust/ --><amp-img alt="" class="" height="313" layout="responsive" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-12/680216-whatsapp-20image-202022-12-15-20at-2016-05-27.jpeg?itok=LGpky2aG" srcset="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-12/680216-whatsapp-20image-202022-12-15-20at-2016-05-27.jpeg?itok=LGpky2aG 470w, https://images.pagina12.com.ar/styles/focal_3_2_300x200/public/2022-12/680216-whatsapp

In [20]:
art_marginales = sopa_seccion.find('div', attrs={'class' : "articles-list is-grid-col2 grid-mobile-row"})

In [21]:
art_marginales

<div class="articles-list is-grid-col2 grid-mobile-row"><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/lists/articles_list_item.dust/ --><!-- DUST PATH: /usr/src/app/src/templates/partials/amp/articles/featured_article.dust/ --><article class="article-item article-item--featured"><!-- Image --><div class="article-item__header deco-bar-here-bottom is-mobile-left"><a href="/508253-un-atentado-pensado-con-tiempo-una-testigo-confirmo-que-saba"><!-- DUST PATH: /usr/src/app/node_modules/frontend-core/views/widgets/fc_displayImg_amp.dust/ --><amp-img alt="" class="" height="313" layout="responsive" src="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-12/680216-whatsapp-20image-202022-12-15-20at-2016-05-27.jpeg?itok=LGpky2aG" srcset="https://images.pagina12.com.ar/styles/focal_3_2_470x313/public/2022-12/680216-whatsapp-20image-202022-12-15-20at-2016-05-27.jpeg?itok=LGpky2aG 470w, https://images.pagina12.com.ar/styles/focal_3_2_300x200/public/2022-12/680216-whatsapp

* Ahora lo que vamos a hacer es extraer el contenido de todas las demás listas de noticias que aparecen más abajo, y nuevamente vamos a guardarlo en una variable.

In [22]:
art_lista = sopa_seccion.find('article', attrs={'class' : "article-item article-item--teaser"})

In [23]:
print(art_lista.a.get('href'))

/508231-cordoba-el-ministerio-de-desarrollo-territorial-y-habitat-en


### Crear función para extraer todo el contenido que nos interese de cada nota
Ahora vamos a crear una función que nos devuelva el contenido de nos interesa de cada noticia, en este caso la url para luego automatizar el scrap.

In [24]:
def extraer_notas (sopa):
    '''
    Función que relice un objeto de BeautifulSoup de una página de secciones
    y devuelve una lista de URLs a las notas de esa sección
    '''
    lista_notas = []
    
    # Obtengo el artículo promocionado
    art_promocionado = sopa.find ('div', attrs={'class' : "article-item__content-footer-wrapper gutter-small deco-bar-here-left is-mobile-top"})
    for promocionado in art_promocionado.find_all ('a'):
        lista_notas.append(promocionado.get('href'))
    
    # Obtengo los artículos marginales
    articulos_marginales = sopa.find ('div', attrs={'class' : "articles-list is-grid-col2 grid-mobile-row"})
    for link in articulos_marginales.find_all('a'):
        lista_notas.append(link.get('href'))
        
    # Obtengo las url de la lista de noticias
    lista_noticias = sopa.find('article', attrs={'class' : "article-item article-item--teaser"})
    for noticia in lista_noticias.find_all('a'):
        lista_notas.append(noticia.get('href'))
        
    return lista_notas

Al analizar la lista que nos devuelve la función advertimos que falta la dirección httml y tenemos muchos links repetidos, esto es devido a que no solamente tenemos la dirección url en el título sino también en el resumen y en algunos casos también en la imagen. Asimismo, tenemos algunos links a los perfiles de los y las periodistas que redactaron las notas.\
Nos va a tocar limpiar el contenido de la lista.\
Ahora que tenemos la nueva lista limpia, y sin los links https, vamos a agregar a cada elemento de la lista la dirección de la web de página12.\
Lo hacemos con un ciclo for que itere por cada elemento de la nueva lista, y guardamos el resultado en otra nueva lista. Luego creamos un función para automatizar el proceso y ya estamos listos para continuar con el scrap.

In [25]:
# Para limpiar la lista que nos devuelve la función vamos a usar pandas, para facilitarlo.
lista_notas = extraer_notas(sopa_seccion)
#len(lista_notas)
lista_notas = list(set(lista_notas))

#type(lista_notas)
lista_nueva_notas = []
lista_links_notas = []
for elemento in lista_notas:
    elemento = str(elemento)
    if elemento.find('http') and elemento.find('None'):
        lista_nueva_notas.append(elemento)
        for nuevo_elemento in lista_nueva_notas:
            elemento = str(elemento)
        lista_links_notas.append ('https://www.pagina12.com.ar' + elemento)
        
lista_links_notas

['https://www.pagina12.com.ar/508135-jorge-capitanich-decidio-desdoblar-las-elecciones-2023-en-ch',
 'https://www.pagina12.com.ar/508253-un-atentado-pensado-con-tiempo-una-testigo-confirmo-que-saba',
 'https://www.pagina12.com.ar/508207-insaurralde-y-di-tullio-entregaron-materiales-didacticos-y-p',
 'https://www.pagina12.com.ar/508175-macri-confirmo-que-estara-en-la-final-del-mundial',
 'https://www.pagina12.com.ar/508129-no-hay-decision-tomada-lo-que-dicen-en-el-gobierno-sobre-un-',
 'https://www.pagina12.com.ar/secciones/el-pais?page=1',
 'https://www.pagina12.com.ar/508183-cristina-kirchner-volvio-a-desenmascarar-el-lawfare-con-un-v',
 'https://www.pagina12.com.ar/508232-la-inflacion-se-desacelero-en-noviembre-fue-del-4-9-y-acumul',
 'https://www.pagina12.com.ar/508292-la-corte-ordeno-que-se-le-tome-juramento-a-los-diputados-des',
 'https://www.pagina12.com.ar/508172-diputados-funcionarios-y-especialistas-en-salud-evaluaron-pr',
 'https://www.pagina12.com.ar/508189-la-corte-suprema-

### Corrección y manejo de errores:
Ahora lo que debemos realizar es continuar con el scraping y generar una función que realice la misma acción previa en cada una de las secciones, con el problema que nos encontramos, fue que al realizarla, y al haber algunos links caídos, se nos cortaba la ejecución del ciclo for. Al encontrarme con este error, lo que advertí fue la manejar y procesar los errores.\
Para manejar los errores podemos utilizar la librería request, y crear una condicional, habíamos dicho que si estaba todo ok, nos devolvía el código 200, por tal manera podemos crear una conición if que nos devuelva el booleano de comparación.

In [26]:
r = requests.get(lista_links_notas[0])

if r.status_code == 200:
    #procesamos la respuesta
    print ('procesamos')
else:
    print ('informamos el error...')
    #informar el error
try:
    requests.get(url_caida)
except Exception as e:
    print ('Error al hacer requests')
    print (e)
    print ('\n')

procesamos
Error al hacer requests
name 'url_caida' is not defined




In [27]:
try:
    art_top.a.get('href')
except:
    pass

In [28]:
r = requests.get(links_secciones[0])
if r.status_code == 200:
    # Procesamos la respuesta
    print('procesamos..')
else:
     # Informar el error
    print('informamos...')

procesamos..


### Extracción contenido de cada nota
Ahora que ya tenemos los links a cada una de las notas de cada sección guardados en una lista, vamos a proceder a acceder al contenido de cada nota y extraer todo lo que querramos.\
Para ello lo primero que vamos a hacer es quedarnos con la primer url y guardarlo en una variable, para trabajar más tranquilos.

In [29]:
url_nota = lista_links_notas[0]
url_nota

'https://www.pagina12.com.ar/508135-jorge-capitanich-decidio-desdoblar-las-elecciones-2023-en-ch'

In [30]:
try:
    nota = requests.get(url_nota)
    if nota.status_code == 200:
        sopa_nota = BeautifulSoup(nota.text, 'lxml')
        # Extraemos el título
        titulo = sopa_nota.find('div', attrs={'class' : 'col 2-col'}).find('h1')
        volanta = sopa_nota.find('div', attrs= {'class' : 'col 2-col'}).find('h4')
        copete = sopa_nota.find('div', attrs= {'class' : 'col 2-col'}).find('h3')
        fecha = sopa_nota.find('div', attrs= {'class' : 'date modification-date'}).find('time')
        autor = sopa_nota.find('div', attrs= {'class' : 'authors-inner-list'}).find('a')
        cuerpo = sopa_nota.find('div', attrs = {'class' : 'article-main-content article-text'})
        #imagen = 
        print('El título es: ', titulo.text)
        print ('La volanda es: ', volanta.text)
        print ('El copete dice: ', copete.text)
        print ('Fue escrita el día: ', fecha.text)
        print ('Por el autor: ', autor.text)
        print (cuerpo.text)
except Exception as e:
    print ('Error: ')
    print (e)
    print('\n')

El título es:  Jorge Capitanich decidió desdoblar las elecciones 2023 en Chaco
Error: 
'NoneType' object has no attribute 'text'




Ahora que ya extrajimos la información que queremos de toda la nota, vamos a crear una función para que lo replique a las demás notas y a todas las demás secciones.\
Luego hacemos una función unificando todo y tendríamos listo el proyecto.

In [31]:
def extraer_contenido_nota (sopa):
    
    # Creamos un diccionario para guardar toda la información
    diccionario_notas = {}
    
    # Extraemos la fecha
    fecha = sopa.find('div', attrs= {'class' : 'date modification-date'})
    if fecha:
        diccionario_notas['fecha'] = fecha.text
    else:
        diccionario_notas['fecha'] = None
    
    # Extraemos la volanta
    volanta = sopa.find('div', attrs= {'class' : 'section-2-col article-header'})
    if volanta:
        for volanta in volanta.find_all('h4'):
            diccionario_notas['volanta'] = volanta.text
    else:
        diccionario_notas['volanta'] = None
    
    # Extraemos el título
    titulo = sopa.find('div', attrs={'class' : 'section-2-col article-header'})
    if titulo:
        for titulo in titulo.find_all ('h1'):
            diccionario_notas['titulo'] = titulo.text
    else:
        diccionario_notas['titulo'] = None
    
    # Extraemos el copete
    copete = sopa.find('div', attrs= {'class' : 'section-2-col article-header'})
    if copete:
        for copete in copete.find_all('h3'):
            diccionario_notas['copete'] = copete.text
    else:
        diccionario_notas['copete'] = None
    
    # Extraemos el cuerpo
    cuerpo = sopa.find('div', attrs = {'class' : 'article-main-content article-text'})
    if cuerpo:
        diccionario_notas['cuerpo'] = cuerpo.text
    else:
        diccionario_notas['cuerpo'] = None
    
    # Extraemos el autor
    autor = sopa.find('div', attrs= {'class' : 'authors-inner-list'})
    if autor:
        diccionario_notas['autor'] = autor.text
    else:
        diccionario_notas['autor'] = None
        
    return diccionario_notas

In [32]:
extraer_contenido_nota (sopa_nota)

{'fecha': '15 de diciembre de 2022 - 11:20',
 'titulo': 'Jorge Capitanich decidió desdoblar las elecciones 2023 en Chaco',
 'copete': 'Los comicios para cargos provinciales serán el 17 de septiembre',
 'cuerpo': 'El gobernador de Chaco, Jorge Capitanich, anunció que la provincia celebrará el año próximo las elecciones para cargos ejecutivos y legislativos provinciales en una fecha diferente de las nacionales. Según lo dispuesto por el mandatario, los chaqueños votarán el 17 de septiembre de 2023."Quiero comunicarles que mediante el Decreto 3087/2022 y de acuerdo con los Art. 90 y 133 de la Const. Provincial, decidimos convocar a elecciones generales para gobernador y vicegobernador de la provincia y renovación de 16 diputados provinciales para el 17 de septiembre de 2023", anunció Capitanich en un mensaje publicado en su cuenta de la red social Twitter.\n\nhttps://twitter.com/jmcapitanich/status/1603366952944246786\n\nEl Poder Legislativo de Chaco había suspendido el pasado 7 de diciem

In [33]:
def scraping_nota (url):
    try:
        nota = requests.get (url)
    except Exception as e:
        print ('Error en el scraping por la URL', url)
        print (e)
        print ('\n')
        return None
    
    if nota.status_code != 200:
        print(f'Error obteniendo la nota {url}')
        print (f'status Code: {nota.status_code}')
        return None
    
    sopa_nota = BeautifulSoup (nota.text, 'lxml')
    
    diccionario_csv = extraer_contenido_nota (sopa_nota)
    diccionario_csv['url'] = url
    
    return diccionario_csv

In [34]:
scraping_nota (url_nota)

{'fecha': '15 de diciembre de 2022 - 11:20',
 'titulo': 'Jorge Capitanich decidió desdoblar las elecciones 2023 en Chaco',
 'copete': 'Los comicios para cargos provinciales serán el 17 de septiembre',
 'cuerpo': 'El gobernador de Chaco, Jorge Capitanich, anunció que la provincia celebrará el año próximo las elecciones para cargos ejecutivos y legislativos provinciales en una fecha diferente de las nacionales. Según lo dispuesto por el mandatario, los chaqueños votarán el 17 de septiembre de 2023."Quiero comunicarles que mediante el Decreto 3087/2022 y de acuerdo con los Art. 90 y 133 de la Const. Provincial, decidimos convocar a elecciones generales para gobernador y vicegobernador de la provincia y renovación de 16 diputados provinciales para el 17 de septiembre de 2023", anunció Capitanich en un mensaje publicado en su cuenta de la red social Twitter.\n\nhttps://twitter.com/jmcapitanich/status/1603366952944246786\n\nEl Poder Legislativo de Chaco había suspendido el pasado 7 de diciem

In [35]:
links_secciones

['https://www.pagina12.com.ar/secciones/el-pais',
 'https://www.pagina12.com.ar/secciones/economia',
 'https://www.pagina12.com.ar/secciones/sociedad',
 'https://www.pagina12.com.ar/suplementos/cultura-y-espectaculos',
 'https://www.pagina12.com.ar/secciones/deportes',
 'https://www.pagina12.com.ar/secciones/ciencia',
 'https://www.pagina12.com.ar/secciones/el-mundo']

In [48]:
notas = []
notas_limpias = []
notas_limpias_link = []

for link in links_secciones:
    try:
        r = requests.get (link)
        if r.status_code == 200:
            sopa = BeautifulSoup (r.text, 'lxml')
            notas.extend(extraer_notas(sopa))
            for elemento in notas:
                elemento = str(elemento)
                if elemento.find('http') and elemento.find('None'):
                    notas_limpias.append(elemento)
                    for nuevo_elemento in notas_limpias:
                        elemento = str(elemento)
                        notas_limpias_link.append ('https://www.pagina12.com.ar' + elemento)
                        notas_limpias_link = list(set(notas_limpias_link))
            
        else:
            print ('No se pudo obtener la sección', link)
   
    except Exception as e:
        print ('Error: ')
        print (e)
        print('\n')

notas_limpias_link

Error: 
'NoneType' object has no attribute 'find_all'




['https://www.pagina12.com.ar/500464-hongos-en-los-pies-prevencion-y-tratamiento',
 'https://www.pagina12.com.ar/508254-la-uia-contra-el-bono-a-trabajadores',
 'https://www.pagina12.com.ar/507337-en-vivo-la-seleccion-argentina-enfrenta-a-croacia-que-dijo-s',
 'https://www.pagina12.com.ar/secciones/el-mundo?page=1',
 'https://www.pagina12.com.ar/508209-que-es-y-como-funciona-chatgpt-el-bot-de-inteligencia-artifi',
 'https://www.pagina12.com.ar/507987-tercer-ataque-de-rusia-a-kiev-con-drones-iranies',
 'https://www.pagina12.com.ar/507682-chile-gabriel-boric-celebro-el-acuerdo-para-abrir-un-nuevo-p',
 'https://www.pagina12.com.ar/secciones/el-pais?page=1',
 'https://www.pagina12.com.ar/508207-insaurralde-y-di-tullio-entregaron-materiales-didacticos-y-p',
 'https://www.pagina12.com.ar/508016-los-limites-del-intercambio-fiscal',
 'https://www.pagina12.com.ar/508268-avanza-en-espana-el-derecho-a-la-licencia-menstrual',
 'https://www.pagina12.com.ar/508157-que-es-la-gripe-del-camello-el-virus

In [49]:
len(notas_limpias_link)

71

In [51]:
len (notas)


# Para limpiar la lista que nos devuelve la función vamos a usar pandas, para facilitarlo.
#lista_notas = extraer_notas(sopa_seccion)
#len(lista_notas)
#lista_notas = list(set(lista_notas))

#type(lista_notas)
lista_nueva_notas_todas = []
lista_links_notas_todas = []
for elemento in notas:
    elemento = str(elemento)
    if elemento.find('http') and elemento.find('None'):
        lista_nueva_notas_todas.append(elemento)
        for nuevo_elemento in lista_nueva_notas_todas:
            elemento = str(elemento)
        lista_links_notas_todas.append ('https://www.pagina12.com.ar' + elemento)

lista_links_notas_todas = list(set(lista_links_notas_todas))
lista_links_notas_todas

['https://www.pagina12.com.ar/secciones/deportes?page=1',
 'https://www.pagina12.com.ar/500464-hongos-en-los-pies-prevencion-y-tratamiento',
 'https://www.pagina12.com.ar/508254-la-uia-contra-el-bono-a-trabajadores',
 'https://www.pagina12.com.ar/507337-en-vivo-la-seleccion-argentina-enfrenta-a-croacia-que-dijo-s',
 'https://www.pagina12.com.ar/508209-que-es-y-como-funciona-chatgpt-el-bot-de-inteligencia-artifi',
 'https://www.pagina12.com.ar/secciones/el-mundo?page=1',
 'https://www.pagina12.com.ar/507987-tercer-ataque-de-rusia-a-kiev-con-drones-iranies',
 'https://www.pagina12.com.ar/507682-chile-gabriel-boric-celebro-el-acuerdo-para-abrir-un-nuevo-p',
 'https://www.pagina12.com.ar/secciones/el-pais?page=1',
 'https://www.pagina12.com.ar/508207-insaurralde-y-di-tullio-entregaron-materiales-didacticos-y-p',
 'https://www.pagina12.com.ar/508016-los-limites-del-intercambio-fiscal',
 'https://www.pagina12.com.ar/508268-avanza-en-espana-el-derecho-a-la-licencia-menstrual',
 'https://www.p

In [52]:
data = []

for i, nota in enumerate (notas_limpias_link):
    print(f'Estamos escrapendo la nota {i}/{len(notas_limpias_link)}')
    data.append(scraping_nota(nota))

Estamos escrapendo la nota 0/71
Estamos escrapendo la nota 1/71
Estamos escrapendo la nota 2/71
Estamos escrapendo la nota 3/71
Estamos escrapendo la nota 4/71
Estamos escrapendo la nota 5/71
Estamos escrapendo la nota 6/71
Estamos escrapendo la nota 7/71
Estamos escrapendo la nota 8/71
Estamos escrapendo la nota 9/71
Estamos escrapendo la nota 10/71
Estamos escrapendo la nota 11/71
Estamos escrapendo la nota 12/71
Estamos escrapendo la nota 13/71
Estamos escrapendo la nota 14/71
Estamos escrapendo la nota 15/71
Estamos escrapendo la nota 16/71
Estamos escrapendo la nota 17/71
Estamos escrapendo la nota 18/71
Estamos escrapendo la nota 19/71
Estamos escrapendo la nota 20/71
Estamos escrapendo la nota 21/71
Estamos escrapendo la nota 22/71
Estamos escrapendo la nota 23/71
Estamos escrapendo la nota 24/71
Estamos escrapendo la nota 25/71
Estamos escrapendo la nota 26/71
Estamos escrapendo la nota 27/71
Estamos escrapendo la nota 28/71
Estamos escrapendo la nota 29/71
Estamos escrapendo l

In [53]:
len(data)

71

In [54]:
df = pd.DataFrame(data)

In [55]:
df.head(25)

Unnamed: 0,fecha,titulo,copete,cuerpo,autor,url,volanta
0,23 de noviembre de 2022 - 10:02,Hongos en los pies: prevención y tratamiento,Por qué aumentan en esta época,Con la llegada de los primeros calores de la t...,Por El Planeta Urbano,https://www.pagina12.com.ar/500464-hongos-en-l...,
1,15 de diciembre de 2022 - 17:15,"La UIA, contra el bono a trabajadores",Privados deberán pagar 24 mil pesos a sueldos ...,El bono para trabajadores privados que anunció...,Por El Planeta Urbano,https://www.pagina12.com.ar/508254-la-uia-cont...,
2,15 de diciembre de 2022 - 19:04,🔴 En vivo. Historial Argentina vs Francia: cam...,Copa del Mundo de la FIFA,Argentina y Francia se enfrentarán en la final...,Por El Planeta Urbano,https://www.pagina12.com.ar/507337-en-vivo-la-...,
3,,,,,,https://www.pagina12.com.ar/secciones/el-mundo...,
4,15 de diciembre de 2022 - 14:55,"Qué es y cómo funciona ChatGPT, el bot de inte...",Diseñado para mantener conversaciones,ChatGPT es un modelo de lenguaje que utiliza l...,Por El Planeta Urbano,https://www.pagina12.com.ar/508209-que-es-y-co...,
5,15 de diciembre de 2022 - 00:13,Tercer ataque de Rusia a Kiev con drones iraníes,El gobierno ucraniano insiste con mejorar la d...,Rusia atacó este miércoles con drones iraníes ...,Por El Planeta Urbano,https://www.pagina12.com.ar/507987-tercer-ataq...,
6,14 de diciembre de 2022 - 00:24,Chile: Gabriel Boric celebró el acuerdo para a...,"El presidente destacó que el pacto reafirma ""e...","El presidente de Chile, Gabriel Boric, dijo es...",Por El Planeta Urbano,https://www.pagina12.com.ar/507682-chile-gabri...,
7,,,,,,https://www.pagina12.com.ar/secciones/el-pais?...,
8,15 de diciembre de 2022 - 14:34,Insaurralde y Di Tullio entregaron materiales ...,,El jefe de Gabinete de la provincia de Buenos ...,Por El Planeta Urbano,https://www.pagina12.com.ar/508207-insaurralde...,
9,15 de diciembre de 2022 - 00:12,Los límites del intercambio fiscal,El Tesoro de EE.UU. publicó los puntos más rel...,El intercambio de información tributaria con E...,Por El Planeta Urbano,https://www.pagina12.com.ar/508016-los-limites...,


In [56]:
df.to_csv('scraping_notas_pagina12.csv')