In [5]:
from pymongo import MongoClient
import json

In [6]:
def get_db(db_name="noticias_db"):
    """Conecta al servidor MongoDB que se ejecuta en localhost en el
    puerto 27017, selecciona la base de datos dungeons y la devuelve."""
    client = MongoClient("localhost", 27017)
    db = client[db_name]
    return db


def run_query(
    filter, project, collection_name="noticias", db_name="noticias_db"
):
    """Ejecuta una query genérica en la colección collection_name de la
    base de datos db_name.

    Args:
        filter: El filtro para buscar documentos (equivalente a
            la cláusula WHERE en SQL).
        project: La proyección para seleccionar qué campos incluir
            (equivalente a SELECT en SQL).
        collection_name: El nombre de la colección en la que se
            ejecutará la query.
        db_name: El nombre de la base de datos en la que se ejecutará
            la query.

    Returns:
        Un diccionario o lista de diccionarios con los resultados de la query.
    """
    db = get_db(db_name)
    result = db[collection_name].find(filter, project)
    result_list = list(result)
    result_json = json.dumps(result_list)
    result_json = json.loads(result_json)
    db.client.close()
    return result_json

In [7]:
run_query({}, {"_id": 0, "journal": 0, "link": 0, "description": 0})

[]

In [10]:
OUTPUT_PATH = "../rich/noticias_with_sentiment.json"
db = get_db()
collection = db["noticias"]

# Read the transformed JSON files from the rich folder
with open(
    OUTPUT_PATH,
    "r",
    encoding="utf-8",
) as f:
    data = json.load(f)
    for item in data:
        # Check if news with the same title already exist (if so, update them)
        existing_news = collection.find_one({"title": item["title"]})
        if existing_news:
            # Update the existing news item
            # collection.update_one({"title": item["title"]}, {"$set": item})
            print(f"News with title '{item['title']}' already exists.")
        else:
            # Insert the new news item
            # collection.insert_one(item)
            print(f"News with title '{item['title']}' inserted.")

News with title 'Cortado parte del paseo de La Castellana de Madrid por una fuga de gas en las obras del parking del Bernabéu' already exists.
News with title '“Trastornos”, “autolesiones”, el desgarro de 139 discapacitados desahuciados de su centro de toda la vida' already exists.
News with title 'La metástasis del turismo y la vecinofobia' already exists.
News with title 'Una fuga de gas provoca el corte del paseo de la Castellana y del Metro' already exists.
News with title '«Tenía un ático con vistas 360º y ahora solo veo un paredón»: los pisos de Coslada encerrados por sorpresa' already exists.
News with title 'La Policía analiza el ADN de ropa hallada en la calle por si pertenece al bebé muerto en Barajas' already exists.
News with title 'Fuga de gas en Madrid, en directo: cortes de tráfico, afecciones en trenes, Metro y última hora de las zonas afectadas hoy' already exists.
News with title 'Buscan trabajadores en un pueblo de Madrid: ofrece casa gratis, sueldo y gastos de luz y