Este jupyter notebook **"extraccion_de_datos.ipnyb"** se encarga de **construir la base de datos con el contenido de las noticias más recientes o actuales**. Accede al **RSS** de 5 periódicos: "EL MUNDO", "20 minutos", "El Confidencial", "elEconomista.es" y "La Información", para conseguir las URL's de las noticias. Cada periódico tiene una estructura de **HTML** específica, por lo que cada noticia hay que **parsearla** de forma diferente para **extraer la información que es interesante analizar**. Se extrae el título, el autor, la fecha y el contenido (texto) de la noticia.

In [2]:
# Librerias necesarias
import feedparser
from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

Primero, **extraigo las noticias** más recientes o actuales de los 5 periódicos:

In [5]:
# Almaceno las URL's al RSS de cada periodico del que voy a extraer noticias

# Variables para almacenar las noticias
# Ruta donde estan las subcarpetas de cada periodico con sus noticias
if not os.path.exists('Noticias'):
    os.mkdir('Noticias')

# Subcarpeta para almacenar las noticias de "EL MUNDO" en el fichero "noticias.json"
if not os.path.exists('Noticias/EL MUNDO'):
    os.mkdir('Noticias/EL MUNDO')
ELMUNDO_json = 'Noticias/EL MUNDO/noticias.json'

# Subcarpeta para almacenar las noticias de "20 minutos" en el fichero "noticias.json"
if not os.path.exists('Noticias/20 minutos'):
    os.mkdir('Noticias/20 minutos')
minutos_json = 'Noticias/20 minutos/noticias.json'

# Subcarpeta para almacenar las noticias de "EL Confidencial" en el fichero "noticias.json"
if not os.path.exists('Noticias/El Confidencial'):
    os.mkdir('Noticias/El Confidencial')
ElConfidencial_json = 'Noticias/El Confidencial/noticias.json'

# Subcarpeta para almacenar las noticias de "elEconomista.es" en el fichero "noticias.json"
if not os.path.exists('Noticias/elEconomista.es'):
    os.mkdir('Noticias/elEconomista.es')
ElEconomista_json = 'Noticias/elEconomista.es/noticias.json'

# Subcarpeta para almacenar las noticias de "La Informacion" en el fichero "noticias.json"
if not os.path.exists('Noticias/La Informacion'):
    os.mkdir('Noticias/La Informacion')
LaInformacion_json = 'Noticias/La Informacion/noticias.json'

dic_urls = {} # Diccionario con el nombre del periodico y la correspondientes URL's de su RSS

# Relaciono en el diccionario cada periodico con las URL's para acceder al RSS
dic_urls['EL MUNDO'] = ['https://e00-elmundo.uecdn.es/elmundo/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/espana.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/internacional.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/union_europea.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/economia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/cultura.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/ciencia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/madrid.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/barcelona.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/baleares.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/castillayleon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/leon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/valladolid.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/valencia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/alicante.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/castellon.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/paisvasco.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia_sevilla.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/andalucia_malaga.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/solidaridad.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/comunicacion.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/television.xml',
                        'https://e00-elmundo.uecdn.es/elmundo/rss/suvivienda.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/futbol.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/baloncesto.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/ciclismo.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/golf.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/tenis.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/motor.xml',
                        'https://e00-elmundo.uecdn.es/elmundodeporte/rss/masdeporte.xml',
                        'https://e00-elmundo.uecdn.es/elmundosalud/rss/portada.xml',
                        'https://e00-elmundo.uecdn.es/elmundomotor/rss/portada.xml']

dic_urls['20 minutos'] = ['https://www.20minutos.es/rss/']

dic_urls['El Confidencial'] = ['https://rss.elconfidencial.com/espana/',
                               'https://rss.elconfidencial.com/mundo/',
                               'https://rss.elconfidencial.com/comunicacion/',
                               'https://rss.elconfidencial.com/sociedad/',
                               'https://rss.elconfidencial.com/mercados/',
                               'https://rss.elconfidencial.com/vivienda/',
                               'https://rss.elconfidencial.com/economia/',
                               'https://rss.elconfidencial.com/mercados/fondos-de-inversion/',
                               'https://rss.elconfidencial.com/empresas/',
                               'https://rss.elconfidencial.com/mercados/finanzas-personales/',
                               'https://rss.elconfidencial.com/tags/temas/apps-9337/',
                               'https://rss.elconfidencial.com/tags/temas/internet-9342/',
                               'https://rss.elconfidencial.com/tags/economia/emprendedores-4800/',
                               'https://rss.elconfidencial.com/tags/otros/moviles-8601/',
                               'https://rss.elconfidencial.com/deportes/futbol/',
                               'https://rss.elconfidencial.com/deportes/tenis/',
                               'https://rss.elconfidencial.com/deportes/baloncesto/',
                               'https://rss.elconfidencial.com/deportes/ciclismo/',
                               'https://rss.elconfidencial.com/deportes/golf/',
                               'https://rss.elconfidencial.com/deportes/motociclismo/',
                               'https://rss.elconfidencial.com/deportes/otros-deportes/',
                               'https://rss.elconfidencial.com/tags/otros/alimentacion-5601/',
                               'https://rss.elconfidencial.com/tags/otros/salud-6110/',
                               'https://rss.elconfidencial.com/tags/temas/bienestar-9331/',
                               'https://rss.elconfidencial.com/tags/economia/trabajo-5284/',
                               'https://rss.vanitatis.elconfidencial.com/noticias/',
                               'https://rss.vanitatis.elconfidencial.com/casas-reales/',
                               'https://rss.alimente.elconfidencial.com/nutricion',
                               'https://rss.alimente.elconfidencial.com/bienestar/']

dic_urls['elEconomista.es'] = ['https://www.eleconomista.es/rss/rss-emprendedores.php',
                               'https://www.eleconomista.es/rss/rss-ecoley.php',
                               'https://www.eleconomista.es/rss/rss-gestion.php',
                               'https://www.eleconomista.es/rss/rss-fondos.php',
                               'https://www.eleconomista.es/rss/rss-category.php?category=tecnologia',
                               'https://www.eleconomista.es/rss/rss-economia.php',
                               'https://www.eleconomista.es/rss/rss-mercados.php',
                               'https://www.eleconomista.es/rss/rss-empresas.php',
                               'https://www.eleconomista.es/rss/rss-seleccion-ee.php',
                               'https://www.eleconomista.es/rss/rss-evasion.php',
                               'https://www.eleconomista.es/rss/rss-espania.php',
                               'https://www.eleconomista.es/rss/rss-global.php',
                               'https://www.eleconomista.es/rss/rss-deportes.php',
                               'https://www.eleconomista.es/rss/rss-cultura.php',
                               'https://www.eleconomista.es/rss/rss-medio-ambiente.php']

dic_urls['La Informacion'] = ['https://www.lainformacion.com/rss/']

In [6]:
# Accedo a los RSS de los periodicos de la coleccion
num_noticias = 0 # Contador de noticias
dic_noticias = {} # Diccionario con el periodico y las noticias recopiladas, extraidas del RSS

# Por cada periodico accedo a las URL's de su RSS
for periodico in dic_urls.items():
    dic_noticias[periodico[0]] = [] # La clave es el periodico
    
    # Aceso a cada URL del RSS
    for url_rss in periodico[1]:
        # Al ser un fichero XML hay que parsearlo para poder leerlo
        rss = feedparser.parse(url_rss)

        # Recorro todas las noticias que aparecen en el RSS
        for post in rss.entries:
            num_noticias += 1 # Aumento el numero de noticias recopiladas
            dic_noticias[periodico[0]].append(post.link) # Guardo la URL de la noticia

print("En total, se han recopilado " + str(num_noticias) + " noticias.")

En total, se han recopilado 1835 noticias.


In [18]:
# Compruebo que he almacenado correctamente las noticias para todos los periodicos y almaceno las URL's en un JSON

urls_json = 'Noticias/diciembre 2021/día 5/urls.json' # Ruta del fichero JSON donde se almacenan las URL's obtenidas

num_noticias = 0
for noticias in dic_noticias.items():
    print(noticias[0])
    for html in noticias[1]:
        num_noticias += 1
        print("  " + str(num_noticias) + ". " + html)
        
# Guardo en un fichero json las urls de las noticias de los 10 periodicos extraidas del RSS
with open(urls_json, 'w') as fp:
    json.dump(dic_noticias, fp, indent=4)

EL MUNDO
  1. https://www.elmundo.es/espana/2021/12/04/61ab994efdddff65558b45d9.html
  2. https://www.elmundo.es/cronica/2021/12/04/61aa5b1821efa01c608b45c8.html
  3. https://www.elmundo.es/deportes/2021/12/05/61a9f035fdddffc2748b457f.html
  4. https://www.elmundo.es/espana/2021/12/05/61aa6bcefdddff965d8b45d3.html
  5. https://www.elmundo.es/espana/2021/12/05/61ab907ae4d4d813748b4584.html
  6. https://www.elmundo.es/espana/2021/12/04/61ab9703fdddfffd618b45b4.html
  7. https://www.elmundo.es/cataluna/2021/12/05/61ab8e51fc6c83e7458b457b.html
  8. https://www.elmundo.es/economia/actualidad-economica/2021/12/04/61a6aec7fc6c8371078b4597.html
  9. https://www.elmundo.es/internacional/2021/12/04/61ab804dfdddff0b0e8b4571.html
  10. https://www.elmundo.es/economia/2021/12/04/61aa6fadfdddfffd618b459d.html
  11. https://www.elmundo.es/ciencia-y-salud/salud/2021/12/05/61aa5667e4d4d8d6748b456f.html
  12. https://www.elmundo.es/deportes/futbol/primera-division/2021/12/04/61abdf0efc6c83c7138b45bd.htm

In [19]:
# Numero de noticias recopiladas para cada periodico
for noticias in dic_noticias.items():
    num_noticias = 0
    for html in noticias[1]:
        num_noticias += 1
    
    print(noticias[0] + ": " + str(num_noticias))

EL MUNDO: 1286
20 minutos: 93
El Confidencial: 394
elEconomista.es: 63
La Informacion: 43


En el caso de haber perdido las urls de las noticias recopiladas, ya sea por reiniciar el ordenar, etc.. Tengo la posibilidad de recuperarlas ya que las he almacenado en disco. Leo el fichero urls.json donde tengo almacenadas las urls de las noticias de todos los periódicos:

In [20]:
import json
import os

with open(urls_json) as file:
    dic_noticias = json.load(file)

Una vez he recopilado todas las noticias de los RSS de 10 periódicos españoles, paso a parsear su HTML y almacenarlo en disco:

In [21]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

# Parseando el html de las noticias del periodico EL MUNDO
num_noticias = 0
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han parseado
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Empiezo a parsear y almacenar los datos
for noticia in dic_noticias['EL MUNDO']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml")
    num_noticias += 1

    # No puedo acceder al contenido de las noticias de tipo premium ni bajo registro, las descarto
    if len(soup.find_all('div', class_="ue-c-article__premium-tag ue-c-article__premium-tag--signwall")) != 0: 
        print(str(num_noticias) + ": BAJO REGISTRO, no esta accesible")
        num_noticias_descartadas += 1
    elif len(soup.find_all('div', class_="ue-c-article__premium-tag")) != 0:
        print(str(num_noticias) + ": PREMIUM, no esta accesible")
        num_noticias_descartadas += 1
    # Si se trata de una portada tambien la descarto
    elif "Portada" in soup.title.text:
        print(str(num_noticias) + ": Se trata de una portada")
        num_noticias_descartadas += 1
    else:
        num_noticias_accesibles += 1
        dic_json[num_noticias] = {}
        
        #Almaceno la url de la noticia
        dic_json[num_noticias]['url'] = noticia
        
        # Accedo al titulo de la noticia y lo almaceno
        dic_json[num_noticias]['titulo'] = soup.title.text
        #print("Titulo: " + soup.title.text)
        
        # Accedo al autor y lo almaceno
        #print("Autor/es: ")
        for autor in soup.find_all('div', class_="ue-c-article__byline-name"):
            autor = autor.get_text()
            if '\n' in autor:
                autor = autor.split('\n')[1]
            #print(autor)
            dic_json[num_noticias]['autor'] = autor
            
        # Accedo a la fecha y lo almaceno
        print(num_noticias)
        if soup.find_all('time') != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('time')[0]['datetime']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua"
        
        # Compruebo si hay comentarios, para que no los tome como contenido de la noticia
        list_comentarios = [] # Lista de los comentarios que tenga la noticia
        for comentario in soup.find_all('div', class_='texto-comentario'):
            list_comentarios.append(comentario.get_text().split('\n')[1])
        for comentario in soup.find_all('div', id="comentarios_lectores_listado"):
            list_comentarios = comentario.get_text().split('\n')

        # Compruebo si hay enlace al tiempo, para que no lo tome como contenido de la noticia
        list_tiempo = []
        for elem in soup.find_all('a', href="/tiempo/index.html"):
            list_tiempo.append(elem.get_text())

        # Compruebo si se da la opcion de registrarse o iniciar sesion, para que no lo tome como contenido de la noticia
        list_sesion = []
        for label in soup.find_all('form', action="/social/login/"):
            list_sesion = label.get_text().split('\n')

        # Compruebo si da la opcion de enviar un mensaje privado, para que no lo tome como contenido de la noticia
        list_mensaje = []
        for label in soup.find_all('div', class_="contenido_mensaje_privado"):
            list_mensaje.append(label.get_text().split('\n')[2])

        # Compruebo si contiene titulos de imagenes o videos, para que no lo tome como contenido de la noticia
        list_titulos = []
        for titl in soup.find_all('div', id="modulo_multimedia"):
            list_titulos = titl.get_text().split("\n")
        for titl in soup.find_all('div', class_="foto"):
            list_titulos.append(titl.get_text())

        # Accedo al contenido de la noticia y lo almaceno
        #print("Contenido:")
        contenido = ""
        
        # Leo primero la cabecera de la noticia
        for p in soup.find_all('p', class_="ue-c-article--first-letter-highlighted"):
            # Compruebo si se trata de un comentario, del enlace al tiempo, del registro o de la opcion de enviar un mensaje, o un titulo
            c = p.get_text()
            if len(c.split('\n')) > 3:
                c = c.split('\n')[2]

            if c not in list_comentarios and c not in list_tiempo and c not in list_sesion and c not in list_mensaje and c not in list_titulos:
                contenido += c
                #print(c)
        
        # Leo el resto de la noticia
        for p in soup.find_all('p', class_=''):
            # Compruebo si se trata de un comentario, del enlace al tiempo, del registro, de la opcion de enviar un mensaje, o un titulo
            c = p.get_text()
            if len(c.split('\n')) > 3:
                c = c.split('\n')[2]

            if c not in list_comentarios and c not in list_tiempo and c not in list_sesion and c not in list_mensaje and c not in list_titulos:
                contenido += c
                #print(c)
        
        # En el caso de que sea una entrevista
        for dl in soup.find_all('dl', class_="ue-c-article__interview"):
            contenido += dl.get_text()
            #print(dl.get_text())
            
        dic_json[num_noticias]['contenido'] = contenido
        
print("EL MUNDO -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Alamaceno en disco el dic_json creado
with open(ELMUNDO_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1: PREMIUM, no esta accesible
2: PREMIUM, no esta accesible
3
4
5
6: PREMIUM, no esta accesible
7
8: PREMIUM, no esta accesible
9: PREMIUM, no esta accesible
10: PREMIUM, no esta accesible
11: PREMIUM, no esta accesible
12


URLError: <urlopen error [WinError 10060] Se produjo un error durante el intento de conexión ya que la parte conectada no respondió adecuadamente tras un periodo de tiempo, o bien se produjo un error en la conexión establecida ya que el host conectado no ha podido responder>

In [None]:
# Depurando el html
soup = BeautifulSoup(urlopen(dic_noticias['La Informacion'][0]).read(), "lxml")
print(soup.prettify())
    

for nombre in soup.find_all('p'):
    print(nombre.get_text())
#    print(text.get_text().split("—")[0])
# <meta content="2021-03-02T16:09:57+01:00" property="article:published_time"/>
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
   

In [22]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

# Parseando el html de las noticias del periodico 20 minutos
num_noticias = 0
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han parseado
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Empiezo a parsear y almacenar los datos
for noticia in dic_noticias['20 minutos']:
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml")
    num_noticias += 1
    
    #Si la noticia no se trata de un video
    if "Vídeo:" not in (soup.title.text).lstrip() and "Fotos:" not in (soup.title.text).lstrip():
        num_noticias_accesibles += 1
        dic_json[num_noticias] = {}

        #Almaceno la url de la noticia
        dic_json[num_noticias]['url'] = noticia

        # Accedo al titulo de la noticia y lo almaceno
        dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
        #print("Titulo: " + soup.title.text)

        # Accedo al autor y lo almaceno
        #print("Autor/es: ")
        for autor in soup.find_all('strong'):
            autor = autor.get_text()
            if '\n' in autor:
                autor = autor.split('\n')[1]
            dic_json[num_noticias]['autor'] = autor
            break

        #print(dic_json[num_noticias]['autor'])
        # Accedo a la fecha y lo almaceno
        if soup.find_all('meta', property="article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="article:published_time")[0]['content']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua"

        # Accedo al contenido de la noticia y lo almaceno
        # Quiero sacar el article articleBody
        cont = 0
        for p in soup.find_all("script",type="application/ld+json"):
            if cont == 1:
                html_articleBody = p
            cont += 1

        # Convierto el objeto a algo tratable como un json
        for letra in html_articleBody:
            json_article = json.dumps(letra)

        #Ya tengo el json ahora es el momento de sacar el texto de la noticia
        contenido = ""
        texto = True
        for c in json_article.split("articleBody")[1].split("\"")[2]:
            if c == "<":
                texto = False
            if texto:
                contenido += c
            if c == ">":
                texto = True

        dic_json[num_noticias]['contenido'] = contenido
        print(num_noticias)
    else:
        num_noticias_descartadas += 1
        
print("20 minutos -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Alamaceno en disco el dic_json creado
with open(minutos_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
20 minutos -> noticias parseadas 86 noticias descartadas 7 = 93


In [None]:
# Parseando el html de las noticias del periodico El Confidencial

from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

# Parseando el html de las noticias del periodico 20 minutos
num_noticias = 0
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han parseado
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Empiezo a parsear y almacenar los datos
for noticia in dic_noticias['El Confidencial']:
    try:
        print(noticia)
        soup = BeautifulSoup(urlopen(noticia).read(), "lxml")
        num_noticias += 1    
        num_noticias_accesibles += 1
        dic_json[num_noticias] = {}

        #Almaceno la url de la noticia
        dic_json[num_noticias]['url'] = noticia

        # Accedo al titulo de la noticia y lo almaceno
        dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
        #print("Titulo: " + soup.title.text)
        
        #Accedo al autor de la noticia y lo almaceno
        autor = ""
        for nombre in soup.find_all('a', class_="authorSignature__link"):
            autor += nombre.get_text()
        dic_json[num_noticias]['autor'] = autor
        
        # Accedo a la fecha y lo almaceno
        if soup.find_all('meta', property="og:article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="og:article:published_time")[0]['content']
        else:
            dic_json[num_noticias]['fecha'] = "Muy antigua"
            
        #Accedo al contenido de la noticia y la almaceno
        contenido = ""
        for text in soup.find_all('div', class_="newsType__content"):
            texto = text.get_text()
            contenido += texto.split(" — ")[0]
        dic_json[num_noticias]['contenido'] = contenido
        
        print(num_noticias)
    except:
        # A veces devuelve un HTTP Error que no se puede controlar, es aleatorio
        num_noticias_descartadas += 1
   
        
print("El Confidencial -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Alamaceno en disco el dic_json creado
with open(ElConfidencial_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

In [None]:
# Parseando el html de las noticias del periodico elEconomista.es

from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

# Parseando el html de las noticias del periodico 20 minutos
num_noticias = 0
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han parseado
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Empiezo a parsear y almacenar los datos
for noticia in dic_noticias['elEconomista.es']:
    print(noticia)
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml")
    num_noticias += 1    
    num_noticias_accesibles += 1
    dic_json[num_noticias] = {}

    #Almaceno la url de la noticia
    dic_json[num_noticias]['url'] = noticia

    # Accedo al titulo de la noticia y lo almaceno
    dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
    #print("Titulo: " + soup.title.text)
    
    #Accedo al autor de la noticia y lo almaceno
    autor = ""
    for nombre in soup.find_all('div', class_="authors_Name d-inline-flex"):
        autor += nombre.get_text()
    dic_json[num_noticias]['autor'] = autor
    
    # Accedo a la fecha y lo almaceno
    if soup.find_all(attrs={"name": "date"}) != []:
        dic_json[num_noticias]['fecha'] = soup.find_all(attrs={"name": "date"})[0]['content']
    else:
        dic_json[num_noticias]['fecha'] = "Muy antigua"

    #Accedo al contenido de la noticia y la almaceno
    contenido = ""
    for nombre in soup.find_all('p'):
        contenido += nombre.get_text()
    dic_json[num_noticias]['contenido'] = contenido
    
    print(num_noticias)
        
print("elEconomista.es -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Alamaceno en disco el dic_json creado
with open(ElEconomista_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)

In [None]:
# Parseando el html de las noticias del periodico La Informacion

from bs4 import BeautifulSoup
from urllib.request import urlopen
import json
import os

# Parseando el html de las noticias del periodico 20 minutos
num_noticias = 0
num_noticias_accesibles = 0 # Guarda el numero de noticias que se han parseado
num_noticias_descartadas = 0 # Guarda el numero de noticias que finalmente se han descartado
dic_json = {} # Diccionario para almacenar los datos de las noticias

# Empiezo a parsear y almacenar los datos
for noticia in dic_noticias['La Informacion']:
    print(noticia)
    soup = BeautifulSoup(urlopen(noticia).read(), "lxml")
    num_noticias += 1    
    num_noticias_accesibles += 1
    dic_json[num_noticias] = {}

    #Almaceno la url de la noticia
    dic_json[num_noticias]['url'] = noticia

    # Accedo al titulo de la noticia y lo almaceno
    dic_json[num_noticias]['titulo'] = (soup.title.text).lstrip()
    #print("Titulo: " + soup.title.text)
    
    #Accedo al autor de la noticia y lo almaceno
    #autor = soup.find_all(attrs={"name": "author"})[0]['content']
    autor = ""
    for nombre in soup.find_all('span', class_="article-author"):
        autor += nombre.get_text()
    dic_json[num_noticias]['autor'] = autor
    
    # Accedo a la fecha y lo almaceno
    if soup.find_all('meta', property="article:published_time") != []:
            dic_json[num_noticias]['fecha'] = soup.find_all('meta', property="article:published_time")[0]['content']
    else:
        dic_json[num_noticias]['fecha'] = "Muy antigua"

    #Accedo al contenido de la noticia y la almaceno
    contenido = ""
    for nombre in soup.find_all('p'):
        if "La Informaci\u00f3n. Calle Canarias" not in nombre.get_text() and "S\u00edguenos tambi\u00e9n en:" not in nombre.get_text():
            contenido += nombre.get_text()
    dic_json[num_noticias]['contenido'] = contenido
    
    print(num_noticias)
    
   
        
print("La Informacion -> noticias parseadas " + str(num_noticias_accesibles) + " noticias descartadas " + str(num_noticias_descartadas) + " = " + str(num_noticias_accesibles + num_noticias_descartadas))
            
# Alamaceno en disco el dic_json creado
with open(LaInformacion_json, 'w') as fp:
    json.dump(dic_json, fp, indent=4)