In [1]:
import requests
import pandas as pd

# === CONFIGURACIÓN ===
API_KEY = ''
tema = 'economia'
fecha_desde = '2025-03-15'
fecha_hasta = '2025-03-20'
idioma = 'es'

# === URL API ===
url = f'https://newsapi.org/v2/everything?q={tema}&language={idioma}&from={fecha_desde}&to={fecha_hasta}&pageSize=100&apiKey={API_KEY}'

# === CONSULTA ===
response = requests.get(url)
data = response.json()

if data.get('status') == 'ok':
    articulos = data['articles']
    df = pd.DataFrame([{
        'fecha': art['publishedAt'],
        'titulo': art['title'],
        'autor': art['author']
    } for art in articulos])

    # === LIMPIEZA Y FORMATEO ===
    df['fecha'] = pd.to_datetime(df['fecha']).dt.date

    # === INDICADORES DE CALIDAD ===
    total = len(df)
    nulos_autor = df['autor'].isna().sum()
    nulos_titulo = df['titulo'].isna().sum()
    duplicados_titulo = df.duplicated(subset='titulo').sum()
    fechas_validas = df['fecha'].dropna()

    # Indicadores adicionales
    autores_unicos = df['autor'].nunique()
    proporcion_articulos_por_dia = df.groupby('fecha').size() / total

    # === RESULTADOS ===
    print("=== Indicadores de calidad de los datos ===")
    print(f"Total de artículos: {total}")
    print(f"Porcentaje sin autor: {nulos_autor / total * 100:.2f}%")
    print(f"Porcentaje sin título: {nulos_titulo / total * 100:.2f}%")
    print(f"Títulos duplicados: {duplicados_titulo}")
    print(f"Rango de fechas reales: {fechas_validas.min()} → {fechas_validas.max()}")
    print(f"Cantidad de autores únicos: {autores_unicos}")
    print("Proporción de artículos por día:")
    print(proporcion_articulos_por_dia)
    print("\nPrimeros artículos extraídos:")
    print(df.head())

else:
    print("Error:", data.get('message'))

=== Indicadores de calidad de los datos ===
Total de artículos: 13
Porcentaje sin autor: 0.00%
Porcentaje sin título: 0.00%
Títulos duplicados: 0
Rango de fechas reales: 2025-03-16 → 2025-03-20
Cantidad de autores únicos: 11
Proporción de artículos por día:
fecha
2025-03-16    0.076923
2025-03-17    0.230769
2025-03-18    0.076923
2025-03-19    0.153846
2025-03-20    0.461538
dtype: float64

Primeros artículos extraídos:
        fecha                                             titulo  \
0  2025-03-20  Díaz lanza un 'zasca' a Montero: "Cuando algui...   
1  2025-03-20  Yolanda Díaz hace una exigencia a Pedro Sánche...   
2  2025-03-20  Yolanda Díaz asegura que este partido del Cong...   
3  2025-03-20  Women Economic Forum 2025 va por acciones que ...   
4  2025-03-20  Imóveis: como o Brasil quer fisgar mais invest...   

               autor  
0    Autor Redacción  
1    Autor Redacción  
2    Autor Redacción  
3  citlallin.andrade  
4    Sergio Ruiz Luz  


# JUSTIFICACION DE LOS INDICADORES DE CALIDAD ###


### Total de artículos: 
Esto indicará que tan relevante fue el tema en el periodo seleccionado

### Porcentaje sin autor: 
Esto indicará que tan confiable son las noticias

### Porcentaje sin título: 
Esto indicará que tan confiable son las noticias

### Títulos duplicados: 
Esto evitará sobreestimar la cantidad de articulos

### Rango de fechas reales: 
Esto indicará el rango real de fechas consideradas

### Cantidad de autores únicos: 
Esto evitará sobreestimar la cantidad de articulos que hablas sobre el tema

### Proporción de artículos por día: 
Esto indicará cuales fueron los dias con mayor importancia a considerar para la demanda