In [1]:
import pandas as pd
from newspaper import news_pool, build

# Lista de URLs de periódicos españoles populares
spanish_news_urls = [
    'https://elpais.com',          # El País
    'https://www.elmundo.es',      # El Mundo
    'https://www.abc.es',          # ABC
    'https://www.lavanguardia.com',# La Vanguardia
    'https://www.elperiodico.com', # El Periódico
    'https://www.eldiario.es',     # El Diario
    'https://www.elespanol.com',   # El Español
]

# Construir objetos de periódicos
spanish_newspapers = [build(url, language='es') for url in spanish_news_urls]

# Pool de periódicos para descargar simultáneamente
news_pool.set(spanish_newspapers, threads_per_source=2)
news_pool.join()

# Lista para almacenar los datos de los artículos
articles_data = []
article_id = 1

# Extraer texto de cada artículo y agregarlo a la lista
for newspaper in spanish_newspapers:
    for article in newspaper.articles:
        try:
            article.download()
            article.parse()
            text = article.text.strip()
            if text:  # Verificar que el texto no esté vacío
                articles_data.append({
                    'IDArticulo': article_id,
                    'Texto': text
                })
                article_id += 1
        except Exception as e:
            print(f"Error al procesar un artículo de {newspaper.brand}: {e}")

# Crear un DataFrame de pandas con los datos recopilados
df = pd.DataFrame(articles_data)

# Guardar el DataFrame en un archivo Excel
df.to_excel('ArticulosOriginales.xlsx', index=False)

print(f"Se han guardado {len(df)} artículos en 'ArticulosOriginales.xlsx'")

Se han guardado 6243 artículos en 'ArticulosOriginales.xlsx'
