# No SQL Databases - MongoDb

In deze bijhorende notebook gaan we een voorbeeld uitwerken van een Document Based NoSQL database.
Hiervoor maken we gebruik van de mongoDB container.
Zolang deze container actief is je met MongoDb connecteren via een shell of een api zoals pymongo.

In MongoDb begin je met te connecteren met een bepaalde database.
Dit doe je door een host en poort te kiezen en de naam van een bepaalde database.
Als je de standaard container configuratie gebruikt, dan is de host de naam van de docker container (mongo) en het portnummer is 27017.
Dit is analoog met hoe je een SQL-database aanspreekt.

MongoDb is een document-based NoSqlDatabase wat betekend dat een database bestaat uit een reeks collecties die elk een aantal documenten bevatten.
In de code hieronder connecteren we met een lokale database "les" waarin we twee collecties gaan gebruiken, namelijk "vakken" en "studenten". 
Deze collecties zijn conceptueel analoog aan de tabellen in een SQL-database.

In [32]:
import pymongo
import json

# connecteer met een mongodb database
client = pymongo.MongoClient("mongodb://root:example@mongo:27017") # connectionstring bepaalt hoe er geconnecteerd moet worden, typische vorm: "mongodb://username:password@domain:port"
# in mongodb compass: mongodb://root:example@localhost:27018/

db = client['les']
coll_vakken = db.vakken
coll_studenten = db['studenten']

Bij bovenstaande code is er echter nog een belangrijke opmerking:
**De database en collecties worden lazy aangemaakt**. 
Dit houdt in dat ze maar aangemaakt worden wanneer ze effectief gebruikt worden (dus wanneer er een document toegevoegd wordt).
Bovenstaande code gaat op dit moment nog geen database en collecties aanmaken.

De documenten in MongoDb kunnen voorgesteld worden als Json formaat. 
In python kunnen dictionaries gebruikt worden om deze documenten voor te stellen, bvb voor een de drie vakken van dit keuzetraject:

In [33]:
datascience = {
    "naam": "Data Science",
    "studiepunten": 5,
    "semester": 1
}

bigdata = {
    "naam": "Big Data",
    "studiepunten": 5,
    "semester": 2
}

machinelearning = {
    "naam": "Machine Learning",
    "studiepunten": 6,
    "semester": 1
}

Deze documenten kunnen toegevoegd worden aan de database door middel van volgende code.

In [34]:
tmp = coll_vakken.insert_one(datascience)
print(tmp)
datascience_id = tmp.inserted_id
print(datascience_id)

bigdata_id = coll_vakken.insert_one(bigdata).inserted_id
machinelearning_id = coll_vakken.insert_one(machinelearning).inserted_id


InsertOneResult(ObjectId('683eff53e61807666053856b'), acknowledged=True)
683eff53e61807666053856b


Nadat de vakken zijn toegevoegd, dan kan de NoSQl database ook bestudeerd en bevraagd worden door gebruik te maken van de MongoDB-compass tool.

Behalve het controleren via de compass-tool kan het ook bevraagd via code door geruik te maken van mongoose op de volgende manier:

In [35]:
print(client.list_databases())
print(db.list_collection_names())

for database in client.list_databases():
    print(database)

from pprint import pprint # voor mooiere prints te maken
for doc in coll_vakken.find(): # select * from vakken
    pprint(doc)

print()
pprint(coll_vakken.find_one()) # zoek me het eerste document dat met de filters overeenkomt (hier is er geen)
print()
pprint(coll_vakken.find_one({"_id": bigdata_id}))
print()
pprint(coll_vakken.find_one({'studiepunten': 6}))
print()
pprint(coll_vakken.find_one({'semester': 1, 'studiepunten': 5}))

<pymongo.synchronous.command_cursor.CommandCursor object at 0x71760b7e8430>
['vakken']
{'name': 'admin', 'sizeOnDisk': 102400, 'empty': False}
{'name': 'config', 'sizeOnDisk': 110592, 'empty': False}
{'name': 'les', 'sizeOnDisk': 8192, 'empty': False}
{'name': 'local', 'sizeOnDisk': 73728, 'empty': False}
{'_id': ObjectId('683eff53e61807666053856b'),
 'naam': 'Data Science',
 'semester': 1,
 'studiepunten': 5}
{'_id': ObjectId('683eff53e61807666053856c'),
 'naam': 'Big Data',
 'semester': 2,
 'studiepunten': 5}
{'_id': ObjectId('683eff53e61807666053856d'),
 'naam': 'Machine Learning',
 'semester': 1,
 'studiepunten': 6}

{'_id': ObjectId('683eff53e61807666053856b'),
 'naam': 'Data Science',
 'semester': 1,
 'studiepunten': 5}

{'_id': ObjectId('683eff53e61807666053856c'),
 'naam': 'Big Data',
 'semester': 2,
 'studiepunten': 5}

{'_id': ObjectId('683eff53e61807666053856d'),
 'naam': 'Machine Learning',
 'semester': 1,
 'studiepunten': 6}

{'_id': ObjectId('683eff53e61807666053856b'),
 

Om de vakken toe te voegen hebben we documenten 1 voor 1 toegevoegd.
Een andere manier is om met een rij van dictionaries te werken om meerdere documenten tegelijkertijd toe te voegen. 
Dit kan bijvoorbeeld als volgt gedaan worden:

In [36]:
import datetime

students = [{
    "studentennummer": 202001546,
    "naam": "Andy Weir",
    "vakken": [{"naam" : "Data Science", "score": 8}, 
               {"naam" : "Big Data", "score": 10}, 
               {"naam" : "Machine Learning", "score": 12}],
    "geboortedatum": datetime.datetime(2000, 4, 24)
},{
    "studentennummer": 202001548,
    "naam": "Albus Dumbledore",
    "vakken": [{"naam" : "Data Science", "score": 14}, 
               {"naam" : "Big Data", "score": 16}, 
               {"naam" : "Machine Learning", "score": 15}],
    "geboortedatum": datetime.datetime(1800, 4, 24)
},{
    "studentennummer": 202001556,
    "naam": "Frodo Baggings",
    "vakken": [{"naam" : "Data Science", "score": 3}, 
               {"naam" : "Big Data", "score": 5}, 
               {"naam" : "Machine Learning", "score": 4}],
    "geboortedatum": datetime.datetime(1960, 4, 24)
}]

# add multiple students
coll_studenten.insert_many(students)

InsertManyResult([ObjectId('683eff55e61807666053856e'), ObjectId('683eff55e61807666053856f'), ObjectId('683eff55e618076660538570')], acknowledged=True)

In [37]:
for doc in coll_studenten.find():
    pprint(doc)

{'_id': ObjectId('683eff55e61807666053856e'),
 'geboortedatum': datetime.datetime(2000, 4, 24, 0, 0),
 'naam': 'Andy Weir',
 'studentennummer': 202001546,
 'vakken': [{'naam': 'Data Science', 'score': 8},
            {'naam': 'Big Data', 'score': 10},
            {'naam': 'Machine Learning', 'score': 12}]}
{'_id': ObjectId('683eff55e61807666053856f'),
 'geboortedatum': datetime.datetime(1800, 4, 24, 0, 0),
 'naam': 'Albus Dumbledore',
 'studentennummer': 202001548,
 'vakken': [{'naam': 'Data Science', 'score': 14},
            {'naam': 'Big Data', 'score': 16},
            {'naam': 'Machine Learning', 'score': 15}]}
{'_id': ObjectId('683eff55e618076660538570'),
 'geboortedatum': datetime.datetime(1960, 4, 24, 0, 0),
 'naam': 'Frodo Baggings',
 'studentennummer': 202001556,
 'vakken': [{'naam': 'Data Science', 'score': 3},
            {'naam': 'Big Data', 'score': 5},
            {'naam': 'Machine Learning', 'score': 4}]}


Om complexere queries uit te voeren moet er gebruik gemaakt worden van de [aggregate functie](https://pymongo.readthedocs.io/en/stable/examples/aggregation.html) waarbij je een stappenplan kan meegeven om een eindresultaat te bekomen.
Meer informatie over alles wat je kan doen met deze aggregate functie kan je vinden in de documentatie van [MongoDb](https://docs.mongodb.com/manual/aggregation/).
Bekijk hiervan zeker de documentatie over [de werking van de pipelines](https://docs.mongodb.com/manual/core/aggregation-pipeline/#std-label-aggregation-pipeline) en de [operators](https://docs.mongodb.com/manual/reference/operator/aggregation/#std-label-aggregation-expression-operators) die je kan gebruiken bij het opstellen van deze pipeline
Nu gaan we een aantal zaken proberen te bereken uit deze data, namelijk:
* Hoeveel vakken zijn er voor elk verschillend aantal studiepunten?
    * Correcte antwoord: 5 studiepunten -> 2 vakken, 6 studiepunten -> 1 vak
* Hoeveel studenten heeft elk vak?
* Voor welk aantal vakken is elke student geslaagd?

In [17]:
pipeline = [
    {'$group' : {"_id": "$studiepunten", "aantalVerschillende": {"$sum": 1}}}
]
# pipeline bevat 1 of meerdere stappen
# elke stap is een dictionary
    # de key van een stap is een functie (functies hebben $ voorraan)
    # de value van een stap is een dictionary met de parameters -> group heeft een _id nodig -> de kolom waarop gegroepeert wordt
        # kolomnaam begint ook met een $

pprint(list(coll_vakken.aggregate(pipeline)))

[{'_id': 5, 'aantalVerschillende': 2}, {'_id': 6, 'aantalVerschillende': 1}]


In [19]:
pipeline = [
    {"$unwind": "$vakken"}, # merk op dat in de documentatie er geen "-tekens staan -> in python moet dit wel
    {'$group' : {"_id": "$vakken.naam", "aantalVerschillende": {"$sum": 1}}} # puntje voor een geneste key te selecteren
]

# dit bestaat uit twee stappen, eerst array uitsplitsen en dan groupby op de vaknaam
# array uitsplitsen in drie documenten gebeurt met de unwind functie

pprint(list(coll_studenten.aggregate(pipeline)))

[{'_id': 'Big Data', 'aantalVerschillende': 3},
 {'_id': 'Machine Learning', 'aantalVerschillende': 3},
 {'_id': 'Data Science', 'aantalVerschillende': 3}]


In [22]:
pipeline = [
    {"$unwind": "$vakken"},
    {"$match": {"vakken.score": {'$gte': 10}}},
    {'$group' : {"_id": "$naam", "aantal_geslaagd": {"$sum": 1}}} # puntje voor een geneste key te selecteren
]

# dit bestaat uit drie stappen, eerst array uitsplitsen, filter enkel degene met score minstens 10 eruit

pprint(list(coll_studenten.aggregate(pipeline)))

[{'_id': 'Andy Weir', 'aantal_geslaagd': 2},
 {'_id': 'Albus Dumbledore', 'aantal_geslaagd': 3}]


**Updaten**

Met behulp van de find_one_and_update functie kunnen we gegevens wijzigen.
In de code hieronder gaan we 
* de naam van het vak Data Science wijzigen naar data (en terug)
* het studentennummer met eentje verhogen van Andy Weir
* de score van Andy Weir voor het vak Big Data veranderen naar 20

In [27]:
coll_vakken.find_one_and_update({"naam": "Data Science"}, {"$set": {"naam": "data science"}})
# dit returned het oude/ongewijzigde document
pprint(list(coll_vakken.find()))

# eentje verhogen kan met $inc in de tweede parameter

[{'_id': ObjectId('683ef389e618076660538564'),
  'naam': 'data science',
  'semester': 1,
  'studiepunten': 5},
 {'_id': ObjectId('683ef389e618076660538565'),
  'naam': 'Big Data',
  'semester': 2,
  'studiepunten': 5},
 {'_id': ObjectId('683ef389e618076660538566'),
  'naam': 'Machine Learning',
  'semester': 1,
  'studiepunten': 6}]


**Verwijderen**

Naast het updaten is het ook mogelijk om verscheidene elementen te verwijderen.
Dit kan aan de hand van een query of door de gewenste collections/databasen te verwijderen.
De code hiervoor is als volgt:

In [28]:
coll_vakken.find_one_and_delete({"naam": "data science"})

pprint(list(coll_vakken.find()))

[{'_id': ObjectId('683ef389e618076660538565'),
  'naam': 'Big Data',
  'semester': 2,
  'studiepunten': 5},
 {'_id': ObjectId('683ef389e618076660538566'),
  'naam': 'Machine Learning',
  'semester': 1,
  'studiepunten': 6}]


In [29]:
coll_vakken.drop()
print(db.list_collection_names())

['studenten']


In [31]:
client.drop_database('les')
print(client.list_database_names())

['admin', 'config', 'local']


## Extra oefeningen

Schrijf de nodige pipelines om de volgende zaken uit te voeren/te berekenen gebruik makend van de studenten-collectie:

* Wat is de gemiddelde score van elk vak?
* Wat is het hoogste studentennummer?
* Wat is het vak met de langste naam?
* Hoeveel studenten hebben een gemiddelde score hoger dan 10 voor alle vakken?
* Wat is het gemiddelde geboortejaar van studenten die een gemiddelde score hebben tussen 8 en 12 voor het vak 'Big Data'?
* Hoeveel studenten hebben meer dan één vak met een score hoger dan 8?
* Wat is de gemiddelde leeftijd van studenten?
* Welke combinatie van vakken heeft de hoogste gemiddelde score?

In [None]:
# vraag 1
pipeline_avg_score = [
    {"$unwind": "$vakken"},
    {"$group": {"_id": "$vakken.naam", "gemiddelde_score": {"$avg": "$vakken.score"}}}
]

average_scores = list(coll_studenten.aggregate(pipeline_avg_score))
print(average_scores)

In [None]:
# vraag 2
pipeline_max_student_number = [
    {"$group": {"_id": None, "max_studentennummer": {"$max": "$studentennummer"}}}
]

max_student_number = list(coll_studenten.aggregate(pipeline_max_student_number))
print(max_student_number)

In [None]:
# vraag 3

pipeline_longest_subject_name = [
    {"$unwind": "$vakken"},
    {"$project": {"vak_length": {"$strLenCP": "$vakken.naam"}, "vakken.naam": 1}},
    {"$sort": {"vak_length": -1}},
    {"$limit": 1}
]

longest_subject_name = list(coll_studenten.aggregate(pipeline_longest_subject_name))
print(longest_subject_name[0]['vakken']['naam'])

In [None]:
# vraag 4

pipeline_above_avg = [
    {"$unwind": "$vakken"},
    {"$group": {
        "_id": "$_id",
        "gemiddelde_score": {"$avg": "$vakken.score"}
    }},
    {"$match": {"gemiddelde_score": {"$gt": 10}}},
    {"$count": "aantal_studenten"}
]

above_avg_students = list(coll_studenten.aggregate(pipeline_above_avg))
print(above_avg_students[0]['aantal_studenten'])

In [None]:
# vraag 5

pipeline_avg_birth_year = [
    {"$unwind": "$vakken"},
    {"$match": {"vakken.naam": "Big Data", "vakken.score": {"$gte": 8, "$lte": 12}}},
    {"$group": {"_id": None, "gemiddelde_geboortejaar": {"$avg": {"$year": "$geboortedatum"}}}}
]

avg_birth_year = list(coll_studenten.aggregate(pipeline_avg_birth_year))
print(avg_birth_year[0]['gemiddelde_geboortejaar'])

In [None]:
# vraag 6

pipeline_multiple_high_scores = [
    {"$unwind": "$vakken"},
    {"$match": {"vakken.score": {"$gt": 8}}},
    {"$group": {"_id": "$_id", "aantal_vakken_hoog": {"$sum": 1}}},
    {"$match": {"aantal_vakken_hoog": {"$gt": 1}}},
    {"$count": "aantal_studenten"}
]

multiple_high_scores_students = list(coll_studenten.aggregate(pipeline_multiple_high_scores))
print(multiple_high_scores_students[0]['aantal_studenten'])

In [None]:
# vraag 7

from datetime import datetime
pipeline_combined = [
    {
        "$addFields": {
            "age": {
                "$floor": {
                    "$divide": [
                        {"$subtract": [datetime.now(), "$geboortedatum"]},
                        1000 * 60 * 60 * 24 * 365
                    ]
                }
            }
        }
    },
    {
        "$group": {
            "_id": None,
            "gemiddelde_leeftijd": {"$avg": "$age"}
        }
    }
]


avg_age = list(coll_studenten.aggregate(pipeline_combined))
pprint(avg_age)

In [None]:
# vraag 8

pipeline_highest_avg_score_combination = [
    {"$unwind": "$vakken"},
    {"$group": {
        "_id": "$vakken.naam",
        "gemiddelde_score": {"$avg": "$vakken.score"}
    }},
    {"$sort": {"gemiddelde_score": -1}},
    {"$limit": 1}
]

highest_avg_score_combination = list(coll_studenten.aggregate(pipeline_highest_avg_score_combination))
print(highest_avg_score_combination[0]['_id'])