Este jupyter notebook **"extraccion_de_datos.ipnyb"** se encarga de **construir la base de datos con el contenido de las noticias más recientes o actuales**. Accede al **RSS** de 5 periódicos: "EL MUNDO", "20 minutos", "El Confidencial", "elEconomista.es" y "La Información", para conseguir las URL's de las noticias. Cada periódico tiene una estructura de **HTML** específica, por lo que cada noticia hay que **parsearla** de forma diferente para **extraer la información que es interesante analizar**. Se extrae la URL, el título, el autor, la fecha y el contenido (texto) de la noticia.

In [2]:
# Librerias necesarias
import feedparser
from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

Primero, **extraigo las noticias** más recientes o actuales de los 5 periódicos:

In [5]:
# Se almacenan las URL's al RSS de cada periodico del que se van a extraer noticias

# Variables para almacenar las noticias
# Ruta donde estan las subcarpetas de cada periodico con sus noticias
if not os.path.exists('Noticias'):
    os.mkdir('Noticias')

# Subcarpeta para almacenar las noticias de "EL MUNDO" en el fichero "noticias.json"
if not os.path.exists('Noticias/EL MUNDO'):
    os.mkdir('Noticias/EL MUNDO')
ELMUNDO_json = 'Noticias/EL MUNDO/noticias.json'

# Subcarpeta para almacenar las noticias de "20 minutos" en el fichero "noticias.json"
if not os.path.exists('Noticias/20 minutos'):
    os.mkdir('Noticias/20 minutos')
minutos_json = 'Noticias/20 minutos/noticias.json'

# Subcarpeta para almacenar las noticias de "EL Confidencial" en el fichero "noticias.json"
if not os.path.exists('Noticias/El Confidencial'):
    os.mkdir('Noticias/El Confidencial')
ElConfidencial_json = 'Noticias/El Confidencial/noticias.json'

# Subcarpeta para almacenar las noticias de "elEconomista.es" en el fichero "noticias.json"
if not os.path.exists('Noticias/elEconomista.es'):
    os.mkdir('Noticias/elEconomista.es')
ElEconomista_json = 'Noticias/elEconomista.es/noticias.json'

# Subcarpeta para almacenar las noticias de "La Informacion" en el fichero "noticias.json"
if not os.path.exists('Noticias/La Informacion'):
    os.mkdir('Noticias/La Informacion')
LaInformacion_json = 'Noticias/La Informacion/noticias.json'

dic_urls = {} # Diccionario con el nombre del periodico y la correspondientes URL's de su RSS

# Se relaciona en el diccionario cada periodico con las URL's para acceder al RSS
dic_urls['EL MUNDO'] = ['https://e00-elmundo.uecdn.es/elmundo/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/espana.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/internacional.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/union_europea.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/economia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/cultura.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/ciencia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/madrid.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/barcelona.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/baleares.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/castillayleon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/leon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/valladolid.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/valencia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/alicante.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/castellon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/paisvasco.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia_sevilla.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia_malaga.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/solidaridad.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/comunicacion.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/television.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/suvivienda.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/futbol.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/baloncesto.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/ciclismo.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/golf.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/tenis.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/motor.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/masdeporte.xml',
                        'https://e00-elmundo.uecdn.es/elmundosalud/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundomotor/rss/portada.xml']

dic_urls['20 minutos'] = ['https://www.20minutos.es/rss/']

dic_urls['El Confidencial'] = ['https://rss.elconfidencial.com/espana/',
                               'https://rss.elconfidencial.com/mundo/',
                               'https://rss.elconfidencial.com/comunicacion/',
                               'https://rss.elconfidencial.com/sociedad/',
                               'https://rss.elconfidencial.com/mercados/',
                               'https://rss.elconfidencial.com/vivienda/',
                               'https://rss.elconfidencial.com/economia/',
                               'https://rss.elconfidencial.com/mercados/fondos-de-inversion/',
                               'https://rss.elconfidencial.com/empresas/',
                               'https://rss.elconfidencial.com/mercados/finanzas-personales/',
                               'https://rss.elconfidencial.com/tags/temas/apps-9337/',
                               'https://rss.elconfidencial.com/tags/temas/internet-9342/',
                               'https://rss.elconfidencial.com/tags/economia/emprendedores-4800/',
                               'https://rss.elconfidencial.com/tags/otros/moviles-8601/',
                               'https://rss.elconfidencial.com/deportes/futbol/',
                               'https://rss.elconfidencial.com/deportes/tenis/',
                               'https://rss.elconfidencial.com/deportes/baloncesto/',
                               'https://rss.elconfidencial.com/deportes/ciclismo/',
                               'https://rss.elconfidencial.com/deportes/golf/',
                               'https://rss.elconfidencial.com/deportes/motociclismo/',
                               'https://rss.elconfidencial.com/deportes/otros-deportes/',
                               'https://rss.elconfidencial.com/tags/otros/alimentacion-5601/',
                               'https://rss.elconfidencial.com/tags/otros/salud-6110/',
                               'https://rss.elconfidencial.com/tags/temas/bienestar-9331/',
                               'https://rss.elconfidencial.com/tags/economia/trabajo-5284/',
                               'https://rss.vanitatis.elconfidencial.com/noticias/',
                               'https://rss.vanitatis.elconfidencial.com/casas-reales/',
                               'https://rss.alimente.elconfidencial.com/nutricion',
                               'https://rss.alimente.elconfidencial.com/bienestar/']

dic_urls['elEconomista.es'] = ['https://www.eleconomista.es/rss/rss-emprendedores.php',
                               'https://www.eleconomista.es/rss/rss-ecoley.php',
                               'https://www.eleconomista.es/rss/rss-gestion.php',
                               'https://www.eleconomista.es/rss/rss-fondos.php',
                               'https://www.eleconomista.es/rss/rss-category.php?category=tecnologia',
                               'https://www.eleconomista.es/rss/rss-economia.php',
                               'https://www.eleconomista.es/rss/rss-mercados.php',
                               'https://www.eleconomista.es/rss/rss-empresas.php',
                               'https://www.eleconomista.es/rss/rss-seleccion-ee.php',
                               'https://www.eleconomista.es/rss/rss-evasion.php',
                               'https://www.eleconomista.es/rss/rss-espania.php',
                               'https://www.eleconomista.es/rss/rss-global.php',
                               'https://www.eleconomista.es/rss/rss-deportes.php',
                               'https://www.eleconomista.es/rss/rss-cultura.php',
                               'https://www.eleconomista.es/rss/rss-medio-ambiente.php']

dic_urls['La Informacion'] = ['https://www.lainformacion.com/rss/']

In [6]:
# Se accede a los RSS de los periodicos de la coleccion
num_noticias = 0 # Contador de noticias
dic_noticias = {} # Diccionario con el periodico y las noticias recopiladas, extraidas del RSS

# Por cada periodico se accede a las URL's de su RSS
for periodico in dic_urls.items():
    dic_noticias[periodico[0]] = [] # La clave es el periodico
    
    # Se accede a cada URL del RSS
    for url_rss in periodico[1]:
        # Al ser un fichero XML hay que parsearlo para poder leerlo
        rss = feedparser.parse(url_rss)

        # Se recorren todas las noticias que aparecen en el RSS
        for post in rss.entries:
            num_noticias += 1 # Se aumenta el numero de noticias recopiladas
            dic_noticias[periodico[0]].append(post.link) # Se guarda la URL de la noticia

print("En total, se han recopilado " + str(num_noticias) + " noticias.")

En total, se han recopilado 1835 noticias.


In [7]:
# Se comprueba que se ha almacenado correctamente las noticias para todos los periodicos y se almacenan las URL's en un JSON

urls_json = 'Noticias/urls.json' # Ruta del fichero JSON donde se almacenan las URL's obtenidas

# Se recorre las URL's de las noticias que se han obtenido en cada periodico
num_noticias = 0
for noticias in dic_noticias.items():
    print(noticias[0]) # Se imprime el periodico
    
    # Se imprimen las URL's
    for html in noticias[1]:
        num_noticias += 1
        print("  " + str(num_noticias) + ". " + html)
        
# Se guarda en el fichero JSON las urls de las noticias de los 5 periodicos extraidas del RSS
with open(urls_json, 'w') as fp:
    json.dump(dic_noticias, fp, indent=4)

EL MUNDO
  1. https://www.elmundo.es/espana/2022/04/02/62475d4ae4d4d8295b8b45b1.html
  2. https://www.elmundo.es/espana/2022/04/01/6247280521efa06b118b45ab.html
  3. https://www.elmundo.es/espana/2022/04/01/62472868fdddff4b328b457e.html
  4. https://www.elmundo.es/internacional/2022/04/01/624720a621efa02a698b45a4.html
  5. https://www.elmundo.es/cultura/2022/04/01/62470193e4d4d8d16c8b45af.html
  6. https://www.elmundo.es/internacional/2022/04/01/6247428a21efa0b72e8b45db.html
  7. https://www.elmundo.es/economia/2022/04/02/62474c88fc6c83016f8b45a6.html
  8. https://www.elmundo.es/economia/empresas/2022/04/01/62473de7fdddffe1958b45c5.html
  9. https://www.elmundo.es/economia/2022/04/01/62472a53e4d4d8b12d8b45c6.html
  10. https://www.elmundo.es/economia/2022/04/01/62473a87fc6c833a448b4570.html
  11. https://www.elmundo.es/comunidad-valenciana/2022/04/01/62474d9b21efa0a92c8b45ba.html
  12. https://www.elmundo.es/espana/2022/04/02/6246fcd9fdddff43a78b45c0.html
  13. https://www.elmundo.es/d

In [9]:
# Se muestra el numero de noticias recopiladas en cada periodico
print("Noticias recopiladas en cada periodico:")
for noticias in dic_noticias.items():
    num_noticias = 0
    for html in noticias[1]:
        num_noticias += 1
    
    print("  - " + noticias[0] + ": " + str(num_noticias))

Noticias recopiladas en cada periodico:
  - EL MUNDO: 1290
  - 20 minutos: 98
  - El Confidencial: 353
  - elEconomista.es: 45
  - La Informacion: 49


Es posible, haber **perdido las urls** de las noticias recopiladas, ya sea por reiniciar el ordenar, etc. Está la posibilidad de **recuperarlas**, ya que se han almacenado en disco, **leyendo el fichero "urls.json"** donde están almacenadas las urls de las noticias de todos los periódicos:

In [10]:
import json
import os

with open(urls_json) as file:
    dic_noticias = json.load(file)

Una vez se ha recopilado todas las noticias del RSS de los 5 periódicos, se pasa a **parsear su HTML y construir la base datos**:

Parseando el periódico **"EL MUNDO"**:

In [11]:
# Parseando el html de las noticias del periodico EL MUNDO

num_noticias = 0 # Numero de noticias totales
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han podido leer
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado, ya que estan ocultas
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Se empieza a parsear y almacenar los datos accediendo a la URL de cada noticia
for noticia in dic_noticias['EL MUNDO']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml") # Se lee el HTML de la noticia
    num_noticias += 1 # Se aumenta el numero de noticias leidas

    # Es posible que no se pueda acceder al contenido de las noticias de tipo premium ni bajo registro, se descartan
    if len(soup.find_all('div', class_="ue-c-article__premium-tag ue-c-article__premium-tag--signwall")) != 0: 
        print(str(num_noticias) + ": BAJO REGISTRO, no esta accesible")
        num_noticias_descartadas += 1 # Se aumenta el numero de noticias descartadas
    elif len(soup.find_all('div', class_="ue-c-article__premium-tag")) != 0:
        print(str(num_noticias) + ": PREMIUM, no esta accesible")
        num_noticias_descartadas += 1 # Se aumenta el numero de noticias descartadas
    # Si se trata de una portada tambien se descarta
    elif "Portada" in soup.title.text:
        print(str(num_noticias) + ": Se trata de una portada")
        num_noticias_descartadas += 1 # Se aumenta el numero de noticias descartadas
    
    # Si no es una portada, limitada bajo registro o premium, se pasa a extraer los datos
    else:
        print(str(num_noticias) + ": Es accesible")
        num_noticias_accesibles += 1 # Se aumenta el numero de noticias accesibles
        dic_json[num_noticias] = {} # Los datos de cada noticia se almacena con la clave del numero de noticia
        
        # Se almacena la URL de la noticia
        dic_json[num_noticias]['url'] = noticia
        
        # Se accede al titulo de la noticia y se almacena
        dic_json[num_noticias]['titulo'] = soup.title.text
        
        # Se accede al autor y se almacena
        for autor in soup.find_all('div', class_="ue-c-article__byline-name"):
            autor = autor.get_text()
            if '\n' in autor:
                autor = autor.split('\n')[1]
            dic_json[num_noticias]['autor'] = autor
            
        # Se accede a la fecha y se almacena
        if soup.find_all('time') != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('time')[0]['datetime']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua" # Es posible que no se indique la fecha
        
        # Se comprueba si hay comentarios, para que no los tome como contenido de la noticia
        list_comentarios = [] # Lista de los comentarios que tenga la noticia
        for comentario in soup.find_all('div', class_='texto-comentario'):
            list_comentarios.append(comentario.get_text().split('\n')[1])
        for comentario in soup.find_all('div', id="comentarios_lectores_listado"):
            list_comentarios = comentario.get_text().split('\n')

        # Se comrueba si hay enlace al tiempo, para que no lo tome como contenido de la noticia
        list_tiempo = [] # Lista de los enlaces al tiempo que tenga la noticia
        for elem in soup.find_all('a', href="/tiempo/index.html"):
            list_tiempo.append(elem.get_text())

        # Se comprueba si se da la opcion de registrarse o iniciar sesion, para que no lo tome como contenido de la noticia
        list_sesion = [] # Lista de la opcion de registrarse o iniciar sesion que tenga la noticia
        for label in soup.find_all('form', action="/social/login/"):
            list_sesion = label.get_text().split('\n')

        # Se comprueba si da la opcion de enviar un mensaje privado, para que no lo tome como contenido de la noticia
        list_mensaje = [] # Lista de la opcion de enviar un mensaje privado que tenga la noticia
        for label in soup.find_all('div', class_="contenido_mensaje_privado"):
            list_mensaje.append(label.get_text().split('\n')[2])

        # Se comprueba si contiene titulos de imagenes o videos, para que no lo tome como contenido de la noticia
        list_titulos = [] # Lista de los titulos de imagenes o videos que tenga la noticia
        for titl in soup.find_all('div', id="modulo_multimedia"):
            list_titulos = titl.get_text().split("\n")
        for titl in soup.find_all('div', class_="foto"):
            list_titulos.append(titl.get_text())

        # Se accede al contenido de la noticia y se almacena
        contenido = ""
        # Se lee primero la cabecera de la noticia
        for p in soup.find_all('p', class_="ue-c-article--first-letter-highlighted"):
            # Se comprueba si se trata de un comentario, del enlace al tiempo, del registro o de la opcion de enviar un mensaje, o un titulo
            c = p.get_text()
            if len(c.split('\n')) > 3:
                c = c.split('\n')[2]

            if c not in list_comentarios and c not in list_tiempo and c not in list_sesion and c not in list_mensaje and c not in list_titulos:
                contenido += c
                
        
        # Se lee el resto de la noticia
        for p in soup.find_all('p', class_=''):
            # Se comrpueba si se trata de un comentario, del enlace al tiempo, del registro, de la opcion de enviar un mensaje, o un titulo
            c = p.get_text()
            if len(c.split('\n')) > 3:
                c = c.split('\n')[2]

            if c not in list_comentarios and c not in list_tiempo and c not in list_sesion and c not in list_mensaje and c not in list_titulos:
                contenido += c
        
        # En el caso de que sea una entrevista
        for dl in soup.find_all('dl', class_="ue-c-article__interview"):
            contenido += dl.get_text()
            
        dic_json[num_noticias]['contenido'] = contenido
        
print("EL MUNDO -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Se almacena en disco el dic_json generado en el fichero noticias.json dentro de la subcarpeta "EL MUNDO"
with open(ELMUNDO_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: Es accesible
2: PREMIUM, no esta accesible
3: PREMIUM, no esta accesible
4: PREMIUM, no esta accesible
5: PREMIUM, no esta accesible
6: PREMIUM, no esta accesible
7: Es accesible
8: PREMIUM, no esta accesible
9: PREMIUM, no esta accesible
10: Es accesible
11: PREMIUM, no esta accesible
12: PREMIUM, no esta accesible
13: Es accesible
14: PREMIUM, no esta accesible
15: Es accesible
16: Es accesible
17: Es accesible
18: PREMIUM, no esta accesible
19: Es accesible
20: Es accesible
21: Es accesible
22: Es accesible
23: PREMIUM, no esta accesible
24: Es accesible
25: Es accesible
26: Es accesible
27: Es accesible
28: Es accesible
29: PREMIUM, no esta accesible
30: Es accesible
31: Es accesible
32: Es accesible
33: Es accesible
34: Es accesible
35: PREMIUM, no esta accesible
36: Es accesible
37: PREMIUM, no esta accesible
38: Es accesible
39: Es accesible
40: Es accesible
41: Es accesible
42: Es accesible
43: PREMIUM, no esta accesible
44: PREMIUM, no esta accesible
45: PREMIUM, no esta ac

401: Es accesible
402: Es accesible
403: Es accesible
404: Es accesible
405: Es accesible
406: Es accesible
407: Es accesible
408: Es accesible
409: Es accesible
410: Es accesible
411: Es accesible
412: Es accesible
413: Es accesible
414: Es accesible
415: Es accesible
416: Es accesible
417: Es accesible
418: Es accesible
419: Es accesible
420: Es accesible
421: Es accesible
422: Es accesible
423: Es accesible
424: Es accesible
425: Es accesible
426: Es accesible
427: Es accesible
428: Es accesible
429: Es accesible
430: Es accesible
431: Es accesible
432: Es accesible
433: Es accesible
434: Es accesible
435: Es accesible
436: Es accesible
437: Es accesible
438: Es accesible
439: Es accesible
440: Es accesible
441: Es accesible
442: Es accesible
443: Es accesible
444: Es accesible
445: Es accesible
446: Es accesible
447: Es accesible
448: Es accesible
449: Es accesible
450: Es accesible
451: Es accesible
452: Es accesible
453: Es accesible
454: Es accesible
455: Es accesible
456: PREMI

835: Es accesible
836: Es accesible
837: PREMIUM, no esta accesible
838: Es accesible
839: Es accesible
840: Es accesible
841: Es accesible
842: PREMIUM, no esta accesible
843: Es accesible
844: Es accesible
845: Es accesible
846: PREMIUM, no esta accesible
847: Es accesible
848: Es accesible
849: PREMIUM, no esta accesible
850: PREMIUM, no esta accesible
851: Es accesible
852: Es accesible
853: Es accesible
854: Se trata de una portada
855: Es accesible
856: Es accesible
857: Es accesible
858: Es accesible
859: Es accesible
860: Es accesible
861: Es accesible
862: Es accesible
863: Se trata de una portada
864: Es accesible
865: Es accesible
866: Es accesible
867: Es accesible
868: Es accesible
869: Es accesible
870: Es accesible
871: Se trata de una portada
872: Es accesible
873: Es accesible
874: Es accesible
875: Es accesible
876: Es accesible
877: Es accesible
878: Es accesible
879: Es accesible
880: Es accesible
881: Es accesible
882: Se trata de una portada
883: Es accesible
884:

1245: Es accesible
1246: Es accesible
1247: Es accesible
1248: Es accesible
1249: Es accesible
1250: Es accesible
1251: Es accesible
1252: Es accesible
1253: Es accesible
1254: Es accesible
1255: Es accesible
1256: Es accesible
1257: Es accesible
1258: Es accesible
1259: Es accesible
1260: Es accesible
1261: Es accesible
1262: Es accesible
1263: Es accesible
1264: Es accesible
1265: Es accesible
1266: Es accesible
1267: Es accesible
1268: Es accesible
1269: Es accesible
1270: Es accesible
1271: Es accesible
1272: Es accesible
1273: Es accesible
1274: Es accesible
1275: Es accesible
1276: Es accesible
1277: Es accesible
1278: Es accesible
1279: Es accesible
1280: Es accesible
1281: PREMIUM, no esta accesible
1282: Es accesible
1283: Es accesible
1284: Es accesible
1285: Es accesible
1286: Es accesible
1287: Es accesible
1288: Es accesible
1289: Es accesible
1290: Es accesible
EL MUNDO -> noticias parseadas 1137 noticias descartadas 153 = 1290


Parseando el periódico **"20 minutos"**:

In [12]:
# Parseando el html de las noticias del periodico 20 minutos

num_noticias = 0 # Numero de noticias totales
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han podido leer
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado, ya que estan ocultas
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Se empieza a parsear y almacenar los datos accediendo a la URL de cada noticia
for noticia in dic_noticias['20 minutos']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml") # Se lee el HTML de la noticia
    num_noticias += 1 # Se aumenta el numero de noticias leida
    
    # Se comprueba si la noticia se trata de un video, si es asi se descarta
    if "Vídeo:" not in (soup.title.text).lstrip() and "Fotos:" not in (soup.title.text).lstrip():
        print(str(num_noticias) + ": Es accesible")
        num_noticias_accesibles += 1 # Se aumenta el numero de noticias accesibles
        dic_json[num_noticias] = {} # Los datos de cada noticia se almacena con la clave del numero de noticia

        # Se almacena la url de la noticia
        dic_json[num_noticias]['url'] = noticia

        # Se accede al titulo de la noticia y se almacena
        dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()

        # Se accede al autor y se almacena
        for autor in soup.find_all('strong'):
            autor = autor.get_text()
            if '\n' in autor:
                autor = autor.split('\n')[1]
            dic_json[num_noticias]['autor'] = autor
            break

        # Se accede a la fecha y se almacena
        if soup.find_all('meta', property="article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="article:published_time")[0]['content']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua" # Es posible que no se indique la fecha

        # Se accede al contenido de la noticia y se almacena
        # Se saca el article articleBody
        cont = 0
        for p in soup.find_all("script",type="application/ld+json"):
            if cont == 1:
                html_articleBody = p
            cont += 1

        # Se convierte el objeto a algo tratable como un json
        for letra in html_articleBody:
            json_article = json.dumps(letra)

        #Una vez se tiene el json ahora es el momento de sacar el texto de la noticia
        contenido = ""
        texto = True
        for c in json_article.split("articleBody")[1].split("\"")[2]:
            if c == "<":
                texto = False
            if texto:
                contenido += c
            if c == ">":
                texto = True

        dic_json[num_noticias]['contenido'] = contenido
        
    else:
        print(str(num_noticias) + ": Se trata de una foto o video")
        num_noticias_descartadas += 1 # Se aumenta el numero de noticias descartadas
        
print("20 minutos -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Se almacena en disco el dic_json generado en el fichero noticias.json dentro de la subcarpeta "20 minutos"
with open(minutos_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: Es accesible
2: Es accesible
3: Es accesible
4: Es accesible
5: Es accesible
6: Es accesible
7: Es accesible
8: Es accesible
9: Es accesible
10: Es accesible
11: Es accesible
12: Es accesible
13: Es accesible
14: Es accesible
15: Es accesible
16: Es accesible
17: Es accesible
18: Es accesible
19: Es accesible
20: Es accesible
21: Es accesible
22: Es accesible
23: Es accesible
24: Es accesible
25: Es accesible
26: Es accesible
27: Es accesible
28: Es accesible
29: Es accesible
30: Es accesible
31: Es accesible
32: Es accesible
33: Es accesible
34: Es accesible
35: Es accesible
36: Es accesible
37: Es accesible
38: Es accesible
39: Es accesible
40: Se trata de una foto o video
41: Se trata de una foto o video
42: Se trata de una foto o video
43: Se trata de una foto o video
44: Se trata de una foto o video
45: Es accesible
46: Es accesible
47: Es accesible
48: Es accesible
49: Es accesible
50: Se trata de una foto o video
51: Es accesible
52: Es accesible
53: Es accesible
54: Se trata

Parseando el periódico **"El Confidencial"**:

In [13]:
# Parseando el html de las noticias del periodico El Confidencial

num_noticias = 0 # Numero de noticias totales
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han podido leer
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado, ya que estan ocultas
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Se empieza a parsear y almacenar los datos accediendo a la URL de cada noticia
for noticia in dic_noticias['El Confidencial']:
    try:
        soup = BeautifulSoup(urlopen(noticia).read(), "lxml") # Se lee el HTML de la noticia
        num_noticias += 1 # Se aumenta el numero de noticias leida   
        num_noticias_accesibles += 1 # Se aumenta el numero de noticias accesibles
        print(str(num_noticias) + ": Es accesible")
        dic_json[num_noticias] = {} # Los datos de cada noticia se almacena con la clave del numero de noticia

        #Se almacena la url de la noticia
        dic_json[num_noticias]['url'] = noticia

        # Se almacena el titulo de la noticia y se almacena
        dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
        
        #Se accede al autor de la noticia y se almacena
        autor = ""
        for nombre in soup.find_all('a', class_="authorSignature__link"):
            autor += nombre.get_text()
        dic_json[num_noticias]['autor'] = autor
        
        # Se accede a la fecha y se almacena
        if soup.find_all('meta', property="og:article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="og:article:published_time")[0]['content']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua" # Es posible que no se indique la fecha
            
        # Se accede al contenido de la noticia y se almacena
        contenido = ""
        for text in soup.find_all('div', class_="newsType__content"):
            texto = text.get_text()
            contenido += texto.split(" — ")[0]
        dic_json[num_noticias]['contenido'] = contenido
        
    except:
        # A veces devuelve un HTTP Error que no se puede controlar, es aleatorio
        num_noticias_descartadas += 1
        print(str(num_noticias) + ": HTTP Error")
   
        
print("El Confidencial -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Se almacena en disco el dic_json generado en el fichero noticias.json dentro de la subcarpeta "El Confidencial"
with open(ElConfidencial_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: Es accesible
2: Es accesible
3: Es accesible
4: Es accesible
5: Es accesible
6: Es accesible
7: Es accesible
8: Es accesible
9: Es accesible
10: Es accesible
11: Es accesible
12: Es accesible
13: Es accesible
14: Es accesible
15: Es accesible
16: Es accesible
17: Es accesible
18: Es accesible
19: Es accesible
20: Es accesible
21: Es accesible
22: Es accesible
23: Es accesible
24: Es accesible
25: Es accesible
26: Es accesible
27: Es accesible
28: Es accesible
29: Es accesible
30: Es accesible
31: Es accesible
32: Es accesible
33: Es accesible
34: Es accesible
35: Es accesible
36: Es accesible
37: Es accesible
38: Es accesible
39: Es accesible
40: Es accesible
41: Es accesible
42: Es accesible
43: Es accesible
44: Es accesible
45: Es accesible
46: Es accesible
46: HTTP Error
47: Es accesible
48: Es accesible
49: Es accesible
50: Es accesible
51: Es accesible
52: Es accesible
53: Es accesible
54: Es accesible
55: Es accesible
56: Es accesible
57: Es accesible
58: Es accesible
59: Es a

Parseando el periódico **"elEconomista.es"**:

In [14]:
# Parseando el html de las noticias del periodico elEconomista.es

num_noticias = 0 # Numero de noticias totales
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han podido leer
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado, ya que estan ocultas
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Se empieza a parsear y almacenar los datos accediendo a la URL de cada noticia
for noticia in dic_noticias['elEconomista.es']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml") # Se lee el HTML de la noticia
    num_noticias += 1 # Se aumenta el numero de noticias leida   
    num_noticias_accesibles += 1 # Se aumenta el numero de noticias accesibles
    print(str(num_noticias) + ": Es accesible")
    dic_json[num_noticias] = {} # Los datos de cada noticia se almacena con la clave del numero de noticia

    # Se almacena la url de la noticia
    dic_json[num_noticias]['url'] = noticia

    # Se accede al titulo de la noticia y se almacena
    dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
    
    # Se accede al autor de la noticia y se almacena
    autor = ""
    for nombre in soup.find_all('div', class_="authors_Name d-inline-flex"):
        autor += nombre.get_text()
    dic_json[num_noticias]['autor'] = autor
    
    # Se accede a la fecha y se almacena
    if soup.find_all(attrs={"name": "date"}) != []:
        dic_json[num_noticias]['fecha'] = soup.find_all(attrs={"name": "date"})[0]['content']
    else:
        dic_json[num_noticias]['fecha'] = "Muy antigua" # Es posible que no se indique la fecha

    # Se accede al contenido de la noticia y se almacena
    contenido = ""
    for nombre in soup.find_all('p'):
        contenido += nombre.get_text()
    dic_json[num_noticias]['contenido'] = contenido
        
print("elEconomista.es -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Se almacena en disco el dic_json generado en el fichero noticias.json dentro de la subcarpeta "elEconomista.es"
with open(ElEconomista_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: Es accesible
2: Es accesible
3: Es accesible
4: Es accesible
5: Es accesible
6: Es accesible
7: Es accesible
8: Es accesible
9: Es accesible
10: Es accesible
11: Es accesible
12: Es accesible
13: Es accesible
14: Es accesible
15: Es accesible
16: Es accesible
17: Es accesible
18: Es accesible
19: Es accesible
20: Es accesible
21: Es accesible
22: Es accesible
23: Es accesible
24: Es accesible
25: Es accesible
26: Es accesible
27: Es accesible
28: Es accesible
29: Es accesible
30: Es accesible
31: Es accesible
32: Es accesible
33: Es accesible
34: Es accesible
35: Es accesible
36: Es accesible
37: Es accesible
38: Es accesible
39: Es accesible
40: Es accesible
41: Es accesible
42: Es accesible
43: Es accesible
44: Es accesible
45: Es accesible
elEconomista.es -> noticias parseadas 45 noticias descartadas 0 = 45


Parseando el periódico **"La Información"**:

In [15]:
# Parseando el html de las noticias del periodico La Informacion

num_noticias = 0 # Numero de noticias totales
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han podido leer
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado, ya que estan ocultas
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Se empieza a parsear y almacenar los datos accediendo a la URL de cada noticia
for noticia in dic_noticias['La Informacion']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml") # Se lee el HTML de la noticia
    num_noticias += 1 # Se aumenta el numero de noticias leida  
    num_noticias_accesibles += 1
    print(str(num_noticias) + ": Es accesible")
    dic_json[num_noticias] = {} # Los datos de cada noticia se almacena con la clave del numero de noticia

    # Se almacena la url de la noticia
    dic_json[num_noticias]['url'] = noticia

    # Se accede al titulo de la noticia y se almacena
    dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
    
    # Se accede al autor de la noticia y se almacena
    autor = ""
    for nombre in soup.find_all('span', class_="article-author"):
        autor += nombre.get_text()
    dic_json[num_noticias]['autor'] = autor
    
    # Se accede a la fecha y se almacena
    if soup.find_all('meta', property="article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="article:published_time")[0]['content']
    else:
        dic_json[num_noticias]['fecha'] = "Muy antigua" # Es posible que no se indique la fecha

    # Se accede al contenido de la noticia y se almacena
    contenido = ""
    for nombre in soup.find_all('p'):
        if "La Informaci\u00f3n. Calle Canarias" not in nombre.get_text() and "S\u00edguenos tambi\u00e9n en:" not in nombre.get_text():
            contenido += nombre.get_text()
    dic_json[num_noticias]['contenido'] = contenido
        
print("La Informacion -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Se almacena en disco el dic_json generado en el fichero noticias.json dentro de la subcarpeta "La Informacion"
with open(LaInformacion_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: Es accesible
2: Es accesible
3: Es accesible
4: Es accesible
5: Es accesible
6: Es accesible
7: Es accesible
8: Es accesible
9: Es accesible
10: Es accesible
11: Es accesible
12: Es accesible
13: Es accesible
14: Es accesible
15: Es accesible
16: Es accesible
17: Es accesible
18: Es accesible
19: Es accesible
20: Es accesible
21: Es accesible
22: Es accesible
23: Es accesible
24: Es accesible
25: Es accesible
26: Es accesible
27: Es accesible
28: Es accesible
29: Es accesible
30: Es accesible
31: Es accesible
32: Es accesible
33: Es accesible
34: Es accesible
35: Es accesible
36: Es accesible
37: Es accesible
38: Es accesible
39: Es accesible
40: Es accesible
41: Es accesible
42: Es accesible
43: Es accesible
44: Es accesible
45: Es accesible
46: Es accesible
47: Es accesible
48: Es accesible
49: Es accesible
La Informacion -> noticias parseadas 49 noticias descartadas 0 = 49
