***Proyecto 6:*** Scraper de Noticias + Resumen Automático

***Descripción del demo:***Este proyecto permite extraer noticias de cualquier sitio web y generar un resumen automático del contenido utilizando técnicas de Procesamiento de Lenguaje Natural (NLP). Ideal para mantenerse informado rápidamente sin leer artículos extensos.

Tecnologías utilizadas

|  Herramienta     | Uso principal                                 |
|--------------------|-----------------------------------------------|
|  Python 3         | Lenguaje principal                            |
|  Newspaper3k      | Extracción automática de artículos web        |
|  Sumy             | Generación de resúmenes LSA                   |
|  NLTK             | Tokenización y soporte NLP                    |
|  Google Colab     | Entorno de ejecución recomendado              |

# ***Demo***

1. 📚🔧 INSTALACIÓN DE LIBRERÍAS

In [1]:
!pip install newspaper3k sumy lxml_html_clean
!pip install --upgrade nltk  # Asegurarnos de tener la versión más reciente



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

2. 📥 CARGA Y CONFIGURACIÓN DEL SCRAPER

In [3]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from newspaper import Article

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


3. 📰🧠 FUNCIÓN PARA EXTRAER Y RESUMIR UNA NOTICIA

In [4]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer

def scrape_and_summarize(url, num_sentences=5):
    try:
        article = Article(url)
        article.download()
        article.parse()
        article.nlp()

        print(f"📌 Título del artículo:\n{article.title}\n")
        print(f"📅 Fecha de publicación: {article.publish_date}\n" if article.publish_date else "")
        print(f"📝 Texto original (primeros 500 caracteres):\n{article.text[:500]}...\n")

        parser = PlaintextParser.from_string(article.text, Tokenizer("english"))
        summarizer = LsaSummarizer()
        summary = summarizer(parser.document, num_sentences)

        print("🧾 Resumen generado:")
        for sentence in summary:
            print(f"- {sentence}")
    except Exception as e:
        print("⚠️ Error al procesar el artículo:", e)

4.🔗 EJEMPLO DE USO

In [6]:
url = "https://cnnespanol.cnn.com/2025/04/23/mundo/cardenales-batalla-papa-francisco-trax"  # Reemplaza por cualquier noticia
scrape_and_summarize(url)

📌 Título del artículo:
Se acerca una batalla entre cardenales para definir el liderazgo de la Iglesia católica tras la muerte del papa Francisco

📅 Fecha de publicación: 2025-04-23 00:00:00

📝 Texto original (primeros 500 caracteres):
CNN —

La muerte del papa Francisco da el disparo de salida a lo que muchos ven como una batalla por el alma de la Iglesia, que enfrenta a los que quieren continuar sus reformas progresistas contra un pequeño, pero poderoso grupo que quiere revertirlas.

Francisco remodeló drásticamente el grupo de prelados que pronto votarán por su sucesor frente al fresco de Miguel Ángel de El juicio final, en la Capilla Sixtina.

Solo los cardenales menores de 80 años tienen derecho a voto, y él eligió a la m...

🧾 Resumen generado:
- Parte de la oposición está bien financiada y las maniobras previas al cónclave han durado varios años.
- Video Ad Feedback Casi el 80 % de los cardenales que elegirán al próximo papa fueron nombrados por Francisco 03:12 - Fuente: CNN Casi