<a href="https://colab.research.google.com/github/Lizeth-Buitrago/Computacion_cognitiva_para_Big_Data/blob/main/Actividad_4_Herramientas_inteligentes_para_analisis_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [8]:
!pip install --quiet newsapi-python

In [9]:
!pip install --quiet --upgrade newsapi-python

In [10]:
from getpass import getpass
import os

newsapi_key = getpass("Pega aquí tu NEWSAPI_KEY: ")
os.environ["NEWSAPI_KEY"] = newsapi_key

Pega aquí tu NEWSAPI_KEY: ··········


In [12]:
from newsapi import NewsApiClient
import os
from datetime import datetime, timedelta
import json

# Inicializar el cliente con tu clave
client = NewsApiClient(api_key=os.getenv("NEWSAPI_KEY"))

def obtener_noticias_principales(pais: str = 'co',
                                  categoria: str = 'technology',
                                  num_resultados: int = 5) -> dict:
    """
    Obtiene las noticias principales de un país y categoría específica.
    """
    try:
        response = client.get_top_headlines(
            country=pais,
            category=categoria,
            page_size=num_resultados
        )
        return response
    except Exception as e:
        return {"error": str(e)}

def buscar_noticias_por_tema(tema: str,
                              dias_atras: int = 7,
                              idioma: str = 'es',
                              num_resultados: int = 5) -> dict:
    """
    Busca noticias por palabra clave en un rango de fechas.
    """
    try:
        fecha_desde = (datetime.now() - timedelta(days=dias_atras)).strftime('%Y-%m-%d')
        fecha_hasta = datetime.now().strftime('%Y-%m-%d')

        response = client.get_everything(
            q=tema,
            language=idioma,
            from_param=fecha_desde,
            to=fecha_hasta,
            sort_by='relevancy',
            page_size=num_resultados
        )
        return response
    except Exception as e:
        return {"error": str(e)}

def obtener_fuentes_disponibles(pais: str = 'co',
                                 idioma: str = 'es') -> dict:
    """
    Obtiene las fuentes de noticias disponibles.
    """
    try:
        response = client.get_sources(
            country=pais,
            language=idioma
        )
        return response
    except Exception as e:
        return {"error": str(e)}


In [20]:
if __name__ == "__main__":
    print("="*60)
    print("PRUEBA 1: NOTICIAS PRINCIPALES DE TECNOLOGÍA")
    print("="*60)

    noticias = obtener_noticias_principales(pais='co', categoria='technology', num_resultados=5)

    if 'error' not in noticias:
        print(f"\n✓ Total de noticias encontradas: {noticias['totalResults']}")
        print("\n--- TITULARES ---\n")

        for idx, article in enumerate(noticias['articles'], 1):
            print(f"{idx}. {article['title']}")
            print(f"   Fuente: {article['source']['name']}")
            print(f"   Fecha: {article['publishedAt']}")
            print(f"   URL: {article['url']}")
            if article['description']:
                print(f"   Descripción: {article['description'][:100]}...")
            print("-"*60)
    else:
        print(f"❌ Error: {noticias['error']}")


PRUEBA 1: NOTICIAS PRINCIPALES DE TECNOLOGÍA

✓ Total de noticias encontradas: 0

--- TITULARES ---



In [14]:
print("\n" + "="*60)
print("PRUEBA 2: BÚSQUEDA DE NOTICIAS - INTELIGENCIA ARTIFICIAL")
print("="*60)

busqueda = buscar_noticias_por_tema(
    tema='inteligencia artificial',
    dias_atras=7,
    idioma='es',
    num_resultados=5
)

if 'error' not in busqueda:
    print(f"\n✓ Total de noticias encontradas: {busqueda['totalResults']}")
    print("\n--- RESULTADOS DE BÚSQUEDA ---\n")

    for idx, article in enumerate(busqueda['articles'], 1):
        print(f"{idx}. {article['title']}")
        print(f"   Fuente: {article['source']['name']}")
        print(f"   Fecha: {article['publishedAt']}")
        print(f"   URL: {article['url']}")
        print("-"*60)
else:
    print(f"❌ Error: {busqueda['error']}")



PRUEBA 2: BÚSQUEDA DE NOTICIAS - INTELIGENCIA ARTIFICIAL

✓ Total de noticias encontradas: 1453

--- RESULTADOS DE BÚSQUEDA ---

1. Se acabó reciclar: han inventado un cubo de basura que lo hace solo (ahora quieres uno)
   Fuente: Hipertextual
   Fecha: 2025-09-29T11:42:16Z
   URL: https://hipertextual.com/tecnologia/se-acabo-reciclar-han-inventado-un-cubo-de-basura-que-lo-hace-solo-ahora-quieres-uno/
------------------------------------------------------------
2. 14 vídeos hechos con Sora 2 (ChatGPT) que te van a volar la cabeza
   Fuente: Hipertextual
   Fecha: 2025-10-01T08:31:20Z
   URL: https://hipertextual.com/tecnologia/14-videos-hechos-con-sora-2-chatgpt-que-te-van-a-volar-la-cabeza/
------------------------------------------------------------
3. Revolución en Google Home: Gemini llega hoy a tu casa y prepárate para pagar una nueva suscripción
   Fuente: Hipertextual
   Fecha: 2025-10-01T13:03:16Z
   URL: https://hipertextual.com/tecnologia/google-home-gemini-suscripcion/
----

In [15]:
print("\n" + "="*60)
print("PRUEBA 3: FUENTES DE NOTICIAS DISPONIBLES")
print("="*60)

fuentes = obtener_fuentes_disponibles(pais='co', idioma='es')

if 'error' not in fuentes:
    print(f"\n✓ Total de fuentes disponibles: {len(fuentes['sources'])}")
    print("\n--- FUENTES ---\n")

    for idx, source in enumerate(fuentes['sources'][:10], 1):
        print(f"{idx}. {source['name']}")
        print(f"   Descripción: {source['description']}")
        print(f"   Categoría: {source['category']}")
        print(f"   URL: {source['url']}")
        print("-"*60)
else:
    print(f"❌ Error: {fuentes['error']}")


PRUEBA 3: FUENTES DE NOTICIAS DISPONIBLES

✓ Total de fuentes disponibles: 0

--- FUENTES ---



In [16]:
print("\n" + "="*60)
print("PRUEBA 4: ANÁLISIS DE PALABRAS FRECUENTES EN TITULARES")
print("="*60)

# Obtener más noticias para análisis
noticias_analisis = obtener_noticias_principales(pais='co', categoria='technology', num_resultados=50)

if 'error' not in noticias_analisis:
    palabras_frecuentes = {}

    for article in noticias_analisis['articles']:
        if article['title']:
            titulo = article['title'].lower()
            # Limpiar y dividir en palabras
            palabras = titulo.replace(',', '').replace('.', '').split()

            for palabra in palabras:
                if len(palabra) > 4:  # Solo palabras con más de 4 letras
                    palabras_frecuentes[palabra] = palabras_frecuentes.get(palabra, 0) + 1

    # Ordenar por frecuencia
    top_palabras = sorted(palabras_frecuentes.items(), key=lambda x: x[1], reverse=True)[:15]

    print("\n--- TOP 15 PALABRAS MÁS FRECUENTES ---\n")
    for idx, (palabra, freq) in enumerate(top_palabras, 1):
        print(f"{idx}. '{palabra}': {freq} veces")
else:
    print(f"❌ Error: {noticias_analisis['error']}")



PRUEBA 4: ANÁLISIS DE PALABRAS FRECUENTES EN TITULARES

--- TOP 15 PALABRAS MÁS FRECUENTES ---



In [17]:
print("\n" + "="*60)
print("GUARDANDO RESULTADOS EN ARCHIVO JSON")
print("="*60)

resultados_finales = {
    'fecha_consulta': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'configuracion': {
        'pais': 'Colombia',
        'idioma': 'español',
        'categorias': ['technology', 'business', 'science']
    },
    'noticias_principales': [
        {
            'titulo': article['title'],
            'fuente': article['source']['name'],
            'fecha': article['publishedAt'],
            'url': article['url'],
            'descripcion': article['description']
        }
        for article in noticias['articles'][:5]
    ] if 'error' not in noticias else [],
    'busqueda_ia': [
        {
            'titulo': article['title'],
            'fuente': article['source']['name'],
            'fecha': article['publishedAt'],
            'url': article['url']
        }
        for article in busqueda['articles'][:5]
    ] if 'error' not in busqueda else [],
    'estadisticas': {
        'total_noticias_principales': noticias.get('totalResults', 0) if 'error' not in noticias else 0,
        'total_busqueda': busqueda.get('totalResults', 0) if 'error' not in busqueda else 0,
        'fuentes_disponibles': len(fuentes.get('sources', [])) if 'error' not in fuentes else 0
    }
}

with open('resultados_newsapi.json', 'w', encoding='utf-8') as f:
    json.dump(resultados_finales, f, ensure_ascii=False, indent=2)

print("\n✓ Resultados guardados exitosamente en 'resultados_newsapi.json'")
print("\n" + "="*60)
print("✓ TODAS LAS PRUEBAS COMPLETADAS")
print("="*60)


GUARDANDO RESULTADOS EN ARCHIVO JSON

✓ Resultados guardados exitosamente en 'resultados_newsapi.json'

✓ TODAS LAS PRUEBAS COMPLETADAS


In [18]:
print("\n" + "="*60)
print("MODO INTERACTIVO - BÚSQUEDA DE NOTICIAS")
print("="*60)
print("Escribe 'salir' para terminar\n")

while True:
    tema_busqueda = input("¿Qué tema deseas buscar?: ")

    if tema_busqueda.lower() in ['salir', 'exit', 'quit']:
        print("\n👋 ¡Hasta pronto!")
        break

    if tema_busqueda.strip():
        print(f"\n🔍 Buscando noticias sobre: '{tema_busqueda}'...\n")

        resultados = buscar_noticias_por_tema(
            tema=tema_busqueda,
            dias_atras=7,
            idioma='es',
            num_resultados=3
        )

        if 'error' not in resultados and resultados['articles']:
            print(f"✓ Se encontraron {resultados['totalResults']} noticias\n")

            for idx, article in enumerate(resultados['articles'][:3], 1):
                print(f"{idx}. {article['title']}")
                print(f"   📰 {article['source']['name']}")
                print(f"   📅 {article['publishedAt']}")
                print(f"   🔗 {article['url']}\n")
        else:
            print("❌ No se encontraron noticias o ocurrió un error\n")
    else:
        print("⚠️ Por favor ingresa un tema válido\n")


MODO INTERACTIVO - BÚSQUEDA DE NOTICIAS
Escribe 'salir' para terminar

¿Qué tema deseas buscar?: AI

🔍 Buscando noticias sobre: 'AI'...

✓ Se encontraron 295 noticias

1. El nuevo AI Mode de Google estrena una función que hará temblar a ChatGPT
   📰 Hipertextual
   📅 2025-09-30T17:50:00Z
   🔗 https://hipertextual.com/inteligencia-artificial/ai-mode-busqueda-visual-imagenes/

2. Nuevo drama para tu privacidad si usas WhatsApp, Instagram y Facebook: Meta AI leerá tus conversaciones (sí o sí)
   📰 Hipertextual
   📅 2025-10-02T09:45:22Z
   🔗 https://hipertextual.com/tecnologia/nuevo-drama-para-tu-privacidad-si-usas-whatsapp-instagram-y-facebook-meta-ai-leera-tus-conversaciones-si-o-si/

3. El buscador de Google añadirá una de las funciones más locas de Gemini
   📰 Hipertextual
   📅 2025-10-01T23:29:53Z
   🔗 https://hipertextual.com/inteligencia-artificial/buscador-google-nano-banana-ai-mode-gemini/

¿Qué tema deseas buscar?: Nexa

🔍 Buscando noticias sobre: 'Nexa'...

✓ Se encontraron 1 n

KeyboardInterrupt: Interrupted by user