In [1]:
import json
import datetime

from bs4 import BeautifulSoup
import requests
import functools

In [2]:
url = "https://elpais.com/espana/madrid/"

response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
else:
    print("Error: Unable to fetch the webpage.")

In [3]:
soup = BeautifulSoup(html_content, "lxml")

In [4]:
@functools.cache
def get_description(link_noticia: str):
    response = requests.get(link_noticia)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, "lxml")
        description = soup.find("h2", attrs={"class": "a_st"})
        return description.text.strip()
    else:
        return "Error: Unable to fetch the webpage."

In [5]:
titles = soup.find_all("h2", attrs={"class": "c_t"})

data = []
for title in titles:
    noticia = {}
    noticia["title"] = title.text.strip()
    noticia["link"] = title.find("a")["href"]
    noticia["description"] = get_description(noticia["link"])
    data.append(noticia)
data

[{'title': 'Las obras de la casa donde vive Ayuso se hicieron sin permiso, según las tres bases de datos urbanísticas de Madrid',
  'link': 'https://elpais.com/espana/madrid/2024-04-02/las-obras-de-la-casa-donde-vive-ayuso-se-hicieron-sin-permiso-segun-las-tres-bases-de-datos-urbanisticas-de-madrid.html',
  'description': 'La reforma del piso comprado por la pareja de la presidenta madrileña tras el presunto fraude fiscal de 350.000 euros siguió después de dos órdenes municipales de “cese inmediato”. Siete testigos acreditan la continuidad de los trabajos, que inundaron las plantas inferiores y llevaron a la bancarrota a un restaurante'},
 {'title': 'Hijos de fallecidos en las residencias de Madrid durante la pandemia reciben cartas en las que les reclaman las deudas cuatro años después',
  'link': 'https://elpais.com/espana/madrid/2024-04-02/hijos-de-fallecidos-en-las-residencias-de-madrid-durante-la-pandemia-reciben-cuatro-anos-despues-cartas-reclamando-las-deudas.html',
  'descripti

In [6]:
with open(
    f"noticias_{datetime.datetime.now().strftime('%Y-%m-%d')}.json",
    "w",
    encoding="utf-8",
) as f:
    json.dump(data, f, indent=2, ensure_ascii=False)

In [7]:
with open("noticias_2024-04-02.json", "r", encoding="utf-8") as f:
    load_data = json.load(f)

In [8]:
load_data

[{'title': 'Las obras de la casa donde vive Ayuso se hicieron sin permiso, según las tres bases de datos urbanísticas de Madrid',
  'link': 'https://elpais.com/espana/madrid/2024-04-02/las-obras-de-la-casa-donde-vive-ayuso-se-hicieron-sin-permiso-segun-las-tres-bases-de-datos-urbanisticas-de-madrid.html',
  'description': 'La reforma del piso comprado por la pareja de la presidenta madrileña tras el presunto fraude fiscal de 350.000 euros siguió después de dos órdenes municipales de “cese inmediato”. Siete testigos acreditan la continuidad de los trabajos, que inundaron las plantas inferiores y llevaron a la bancarrota a un restaurante'},
 {'title': 'Hijos de fallecidos en las residencias de Madrid durante la pandemia reciben cartas en las que les reclaman las deudas cuatro años después',
  'link': 'https://elpais.com/espana/madrid/2024-04-02/hijos-de-fallecidos-en-las-residencias-de-madrid-durante-la-pandemia-reciben-cuatro-anos-despues-cartas-reclamando-las-deudas.html',
  'descripti