In [2]:
from pymongo import MongoClient
import pandas as pd
import numpy as np

In [16]:
# alapértelmezett beállításokkal, csupán az adatbázisnév tetszőleges
def get_mongo_database(
    db_name, host="localhost", port=27017, username=None, password=None
):
    """ Elérjük a db_name-mel hivatkozott adatbázist MongoDB-ről, hitelesítő adatokkal vagy azok nélkül """

    if username and password:
        mongo_uri = "mongodb://{}:{}@{}/{}".format(username, password, host, db_name)
        # URI = uniform resource identifier
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)

    return conn[
        db_name
    ]  # itt már a második féle jelölést használjuk az adatbázis eléréséhez


def mongo_to_dataframe(
    db_name,
    collection,
    query={},
    host="localhost",
    port=27017,
    username=None,
    password=None,
    no_id=True,
):
    """ Létrehoz egy DataFrame-t egy MongoDB collection-ból """

    db = get_mongo_database(db_name, host, port, username, password)

    # megkeresi a collection-ból a lekérdezés szerinti elemeket
    cursor = db[collection].find(query)

    df = pd.DataFrame(list(cursor))

    # amennyiben azt szeretnénk, hogy törölje ki a MongoDB által hozzáadott id-t
    if no_id:
        del df["_id"]

    return df


# alapvetően, a removeexisting kitörli, ha már létezik,
# a skipifexists, átugorja, ha már létezik,
# de a forceupdate esetén vagy hozzáfűzi, vagy törli és újratölti a removeexisting függvényében
def dataframe_to_mongo(
    df,
    db_name,
    collection,
    host="localhost",
    port=27017,
    username=None,
    password=None,
    removeexisting=True,
    skipifexists=False,
    forceupdate=False,
):
    """ Lement egy DataFrame-t egy MongoDB collection-be """
    db = get_mongo_database(db_name, host, port, username, password)

    if (skipifexists and not forceupdate) and (collection in db.list_collection_names()):
        return

    if (collection in db.list_collection_names()) and removeexisting:
        db[collection].drop()

    records = df.to_dict(orient="records")

    db[collection].insert_many(records)

In [4]:
def dataframe_mongo_compatible(df):
    # a MongoDB-n való tárolás miatt vissza kell alakítani object-é az oszlopot, és NaN-ra állítani a NaT-okat,
    # mert másképp nem engedi feltölteni, ValueError miatt
    df.date_of_death = df.date_of_death.astype(object).where(df.date_of_death.notnull(), np.nan)

    return df

def dataframe_reverse_compatible(df):
    # visszalakítjuk datetime objektummá az oszlopot
    df.date_of_death = pd.to_datetime(df.date_of_death)

    return df

In [19]:
df = mongo_to_dataframe('nobel_prize', 'country_data')
df.set_index('name', inplace=True)
df.to_json('data.json', orient='index')

None
