![title](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fdyclassroom.files.wordpress.com%2F2019%2F09%2Fmongodb.jpg&f=1&nofb=1)

<div style="background-color: #168b33; padding: 5px;"></div>

# Unstrukturierte Daten aus einer MongoDB auslesen und auswerten


1. [Übersicht](#Uebersicht)
    1. [Einführung in die dokumentenorientierte MongoDB](#Einführung)
    2. [Ziel dieses Notebooks](#Ziel)
2. [MongoDB Grundlagen](#Grundlagen)
    1. [JSON und BSON](#BSON)
    2. [Relationships with Documents](#Relationships)
    3. [Aufgabenbereich 1](#Aufgabenbereich1)
3. [Starten der MongoDB und Verbdindung herstellen](#Start)
    1. [Lesen, speichern, updaten und löschen von Daten](#CRUD)
    2. [Aufgabenbereich 2](#Aufgabenbereich2)
3. [Betrachten des Datenbestandes](#Datenbestand)
    1. [Importieren eines JSON Datensatzes](#JSON-Einlesen)
    2. [Datensatz mit Pandas anzeigen](#Pandas)
    3. [Die Dokumente direkt auslesen und mit Pandas anzeigen](#Direkt)
    4. [Aufgabenbereich 3](#Aufgabenbereich3)
5. [Erstellen von Queries mit den MongoDB Operatoren](#Queries)
    1. [Aufgabenbereich 4](#Aufgabenbereich4)
6. [Auslesen und Zusammenhänge herausfinden mit der Aggregation Pipeline](#Pipeline)
    1. [Unterschied zwischen Operatoren und Stages](#Pipeline-Stages-Operatoren)
    2. [Implementieren einer Pipeline (Syntax)](#Pipeline-Syntax)
    3. [Beispiele mit der Aggregation Pipeline](#Pipeline-Beispiele) 
    4. [Aufgabenbereich 5](#Aufgabenbereich5)
7. [Auslesen und Zusammenhänge herausfinden mit dem Map-Reduce Verfahren](#Map)
    1. [Aufgabenbereich 6](#Aufgabenbereich6)
8. [Abschlussaufgabe](#Abschlussaufgabe)
    1. [Aufgabenbereich 7](#Aufgabenbereich7)

<div style="background-color: #168b33; padding: 5px; height: 50px;"></div>

## 1. <b id="Uebersicht">Übersicht</b>

### 1.1 <b id="Einführung">Einführung in die dokumentenorientierte MongoDB</b>
Große Datenmengen werden heutzutage schnell generiert. Die MongoDB ist eine dokumentenorientierte Datenbank, die oft dazu verwendet wird um strukturlose Daten in einem verteilten Cluster aus Datenbanken abzuspeichern. Einige Eigenschaften der MongoDB stechen besonders hervor, wenn es um die Wahl des geeigneten Database Management Systems
geht. Hierzu zählen eine richtige Abfragesprache für dynamische Abfragen, eine hohe Verfügbarkeit, Skalierbarkeit, eine effiziente Speicher Engine, Datenkonsistenz und Datenintegrität.

MongoDB eignet sich am besten für große Datenmengen, wenn die vorhandenen Daten weitere Manipulationen für die gewünschte Ausgabe benötigen. Zu den leistungsstarken Funktion zählen hierbei die CRUD-Operationen, das Aggregations-Framework, die Textsuche und die Map-Reduce-Funktion.

### 1.2 Ziel dieses Notebooks
Es soll verdeutlicht werden wie aus einer NoSQL Datenbank Daten effizient ausgelesen werden können, um diese zu bearbeiten. Datensätze liegen nicht immer als CSV Datei vor oder liegen in einem verteilten System aus Datenbanken. Diese Daten direkt aus der Datenbank auszulesen und mit effektiven Werkzeugen wie dem Aggregations-Framework zu strukturieren ist das Ziel dieses Notebooks.

<b>Setup für die Aufgabenüberprüfung</b>

In [199]:
from taskreview.learningModule import LearningModule
mongo_lm = LearningModule('data/MongoTask.db')

<div style="background-color: #168b33; padding: 5px; height: 50px;"></div>

## 2. <b id="Grundlagen">Grundlagen</b>

Hierbei sollen die Grundlagen für die Interaktion mit der dokumentenorientierten Datenbank MongoDB und die Verwendung der JavaScript Object Notation (JSON) erklärt werden. Diese ist wichtig, denn die MongoDB speichert Daten nicht in Tabellen, sondern in Collections, welche keine festen Strukturen enthalten. Die Collections können als äquivalent zu den Tabellen in SQL Datenbanken angesehen werden. Die Dokumente selbst liegen innerhalb dieser Collections und werden in einer erweiterten JSON Struktur dargestellt, welche aber mehr Datentypen bietet.

### 2.1 <b id="BSON">JSON und BSON</b>
Der Aufbau der Datensätze wird hier genauer betrachtet. Die Struktur eines einzelnen Dokumentes ist die gleiche wie die von JSON Dateien. In der unteren Abbildung ist ein Dokument zu sehen welches in einer MongoDB gespeichert wurde. Die Daten werden als Key/Value Paare dargestellt, wobei beim ersen Paar mit dem Key "_id" zu erkennen ist, dass der Value einen neuen Datentyp enthällt.

![title](img/image_json.png)

Die neuen Datentypen werden als BSON Datentypen bezeichnet. BSON steht hierbei für Binary JSON. Die MongoDB speichert die Datentypen in einer binären Form ab, wodurch es möglich ist die JSON Datentypen zu ergänzen. Der Key "_id" enthällt somit den BSON Datentyp ObjectId(). Dieses Feld repräsentiert die einzigartige ID jedes Dokumentes. Diese wird benötigt um ein Dokument zu identifizieren (vergleichbar mit Primärschlüssel).

<table style="font-size:14px">
	<tbody>
        <tr>
			<td style="width: 200px;text-align: center;" align="center"><b>BSON Datentypen</b></td>
			<td style="width: 200px;text-align: center;" align="center"><b>JSON Datentypen</b></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Double</td>
			<td style="width: 200px;text-align: center;" align="center">Number</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">String</td>
			<td style="width: 200px;text-align: center;" align="center">String</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Object</td>
			<td style="width: 200px;text-align: center;" align="center">Object</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Array</td>
			<td style="width: 200px;text-align: center;" align="center">Array</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Boolean</td>
			<td style="width: 200px;text-align: center;" align="center">Boolean</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Null</td>
			<td style="width: 200px;text-align: center;" align="center">Null/Empty</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Binary data</td>
			<td style="width: 200px;text-align: center;" align="center"> </td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Undefined</td>
			<td style="width: 200px;text-align: center;" align="center"> </td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">ObjectId</td>
			<td style="width: 200px;text-align: center;" align="center"> </td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Date</td>
			<td style="width: 200px;text-align: center;" align="center"> </td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Regular Expression</td>
			<td style="width: 200px;text-align: center;" align="center"> </td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">JavaScript</td>
			<td style="width: 200px;text-align: center;" align="center"></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Symbol</td>
			<td style="width: 200px;text-align: center;" align="center"></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">32-bit integer</td>
			<td style="width: 200px;text-align: center;" align="center"></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">64-bit integer</td>
			<td style="width: 200px;text-align: center;" align="center"></td>
		</tr>
	</tbody>
</table>



Im weiteren Schritt wird gezeigt wie die MongoDB gestartet wird und erste Datensätze importiert werden kann. 

Anhand dieser Daten sollen die Grundladen zu den CRUD Operationen verdeutlicht werden. CRUD steht hierbei für die vier Interaktionsmöglichkeiten wenn es darum geht Dokumente zu erstellen (create), lesen (read), aktualisieren (update) und zu löschen (delete).

### 2.2 <b id="Relationships">Relationships with Documents</b>
Die MongoDB kann logische Beziehungen zwischen Dokumenten herleiten. Dazu gibt es verschiedene Verfahren die hier genauer erläutert werden sollen.  

<b>Model One-to-One Relationships with Embedded Documents</b><br>
Ein Dokument kann als Key den Datentyp "Object" enthalten. Dies repräsentiert bei der MongoDB ein Embedded Document. Es wird somit ein gesamgte Dokument unterhalb eines einzigen Keys eingetragen.

![title](img/image_json_embedded.png)

<b>One-to-Many with Document References</b><br>
Ein einzelner Key kann mehrere Schlüssel in einem Array enthalten, welche dann zu vielen weiteren Dokumenten führen.

![title](img/image_json_references.png)

<b>Model One-to-Many Relationships with Embedded Documents</b><br>
In einem Array können auch Objekte als Datentypen eingefügt werden. Ein Schlüssel kann somit viele einzelne Dokumente in einem Array enthalten.

![title](img/image_json_many_embedded.png)

<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

### 2.3 <b id="Aufgabenbereich1">Aufgabenbereich 1</b>

Wie heißt der Datentyp für den Primärschlüssel aus dem Dokument das bei den Grundlagen gezeigt wurde?

In [161]:
mongo_lm.show_task(1)

Output()

Output()

Output()

In welcher Form werden die Daten in der MongoDB gespeichert?

In [162]:
mongo_lm.show_task(2)

Output()

Output()

Output()

Wie heißt die erweiterte JSON-Form die in der MongoDB verwendet wird? 

In [110]:
mongo_lm.show_task(3)

'NoneType' object is not subscriptable
Zu dieser Task-ID existiert keine Aufgabe.


Markiere das Dokument welches ein Embedded Document enthält:

In [5]:
mongo_lm.show_task(4)

Output()

Output()

Output()

<div style="background-color: #168b33; padding: 5px; height: 50px;"></div>

## 3 <b id="Start">Starten der MongoDB und Verbdindung herstellen</b>

In [6]:
#!mongod --config /home/jovyan/mongod.conf

<b>MongoDB Treiber importieren</b>

Hier werden alle notwendigen Module für die Interaktion mit der MongoDB und den Daten geladen.

In [20]:
import pymongo
import datetime
import json 
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from bson.son import SON
from bson.objectid import ObjectId
from pprint import pprint

<table style="font-size:14px">
	<tbody >
        <tr>
            <td style="width: 200px;text-align: center;" align="center"><b>Modul</b></td>
            <td style="width: 200px;text-align: center;" align="center"><b>Verwendung</b></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">pymongo</td>
			<td style="width: 200px;text-align: center;" align="center">MongoDB Python Treiber</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">datetime</td>
			<td style="width: 200px;text-align: center;" align="center">Ein neues Datum erstellen</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">json</td>
			<td style="width: 200px;text-align: center;" align="center">JSON encoder and decoder</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">matplotlib</td>
			<td style="width: 200px;text-align: center;" align="center">Visualization with Python</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">pandas</td>
			<td style="width: 200px;text-align: center;" align="center">Daten-Manipulation und -Analyse</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">numpy</td>
			<td style="width: 200px;text-align: center;" align="center">Mathematische Funktionen</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">SON (Serialized Ocument Notation)</td>
			<td style="width: 200px;text-align: center;" align="center">Interaktion mit den BSON Documenten</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">pprint</td>
			<td style="width: 200px;text-align: center;" align="center">Data pretty printer</td>
		</tr>
	</tbody>
</table>

<b>Verbindung zu MongoDB herstellen und alle vorhandenen Datenbanken ausgeben</b>

In [21]:
client = pymongo.MongoClient()
client.list_database_names()

['Store', 'admin', 'config', 'local']

<b>Eine neue Datenbank und eine Collection anlegen<b>

In [22]:
store_db = client["Store"]
customer_col = store_db["Customer"]

### 3.1 <b id="CRUD">Lesen, speichern, updaten und löschen von Daten</b>


<b>Ein Dokument anlegen und in der Collection abspeichern</b></br>

<b>Bemerke: </b>Das Dokument enthält keine ObjectId, da diese von der MongoDB selbst generiert wird.

In [39]:
example = {
    "first_name" : "Neuer Name",
    "last_name" : "Neuer Nachname",
    "email" : "irgendwas@irgendwas",
    "phone_number" : "+55 744 995 7575",
    "last_login" : datetime.datetime.now(),
    "address" : {
        "country" : "A Country",
        "city" : "A City",
        "street" : "A Street",
        "zip" : 99999
    },
    "cart" : [] 
}
pprint(example)

{'email': 'irgendwas@irgendwas',
 'first_name': 'Neuer Name',
 'last_login': datetime.datetime(2021, 1, 1, 17, 27, 41, 473135),
 'last_name': 'Neuer Nachname',
 'phone_number': '+55 744 995 7575'}


In [40]:
id = customer_col.insert_one(example).inserted_id
pprint(id)

ObjectId('5fef4d8543696abc38793196')


<b>Ein Dokument anhand eines Filters auslesen</b>


Zum auslesen eines Dokumentes muss durch das <b>MongoCursor</b> Objekt iteriert werden.<br>
<b style="color:red">Achtung:</b> Wird eine Cursor einmal ausgelesen ist das Object leer.

In [101]:
filter = {'_id': id}

inserted_Document = customer_col.find(filter)
copy_document = inserted_Document.clone()
print(type(inserted_Document))

<class 'pymongo.cursor.Cursor'>


In [102]:
for document in inserted_Document:
    pprint(document)

{'_id': ObjectId('5fef4d8543696abc38793196'),
 'email': 'irgendwas@irgendwas',
 'first_name': 'Neuer Name',
 'last_login': datetime.datetime(2021, 1, 1, 17, 27, 41, 473000),
 'last_name': 'Neuer Nachname',
 'phone_number': '+55 744 995 7575'}


In [103]:
df = pd.DataFrame(copy_document)
df

Unnamed: 0,_id,first_name,last_name,email,phone_number,last_login
0,5fef4d8543696abc38793196,Neuer Name,Neuer Nachname,irgendwas@irgendwas,+55 744 995 7575,2021-01-01 17:27:41.473


<b>Updaten eines Dokumentes anhand eines Filters und dem Set Operator</b>

In [15]:
filter = {'_id': id} 
newvalue = { "$set": { 'first_name': "Peter Müller" } } 

inserted_Document = customer_col.update_one(filter,newvalue)

# Suche nach dem Dokument wiederholen um die Veränderung zu sehen
filter = {'_id': id}
inserted_Document = customer_col.find(filter)
copy_document = inserted_Document.clone()

for document in inserted_Document:
    pprint(document)
    
df = pd.DataFrame(copy_document)
df

{'_id': ObjectId('5fef41bf43696abc38793194'),
 'email': 'irgendwas@irgendwas',
 'first_name': 'Peter Müller',
 'last_login': datetime.datetime(2021, 1, 1, 16, 37, 35, 769000),
 'last_name': 'Neuer Nachname',
 'phone_number': '+55 744 995 7575'}


Unnamed: 0,_id,first_name,last_name,email,phone_number,last_login
0,5fef41bf43696abc38793194,Peter Müller,Neuer Nachname,irgendwas@irgendwas,+55 744 995 7575,2021-01-01 16:37:35.769


<b>Nach mehreren Dokumenten suchen</b>

<table style="font-size:14px">
	<tbody >
        <tr>
            <td style="width: 200px;text-align: center;" align="center"><b>Operation</b></td>
            <td style="width: 200px;text-align: center;" align="center"><b>Syntax</b></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Finden von Dokumenten</td>
			<td style="width: 200px;text-align: center;" align="center">find()</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Sortieren derAusgabe</td>
			<td style="width: 200px;text-align: center;" align="center">sort()</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Ausgabe eingrenzen</td>
			<td style="width: 200px;text-align: center;" align="center">limit(Integer)</td>
		</tr>
	</tbody>
</table>

In [16]:
for document in customer_col.find().sort("_id",pymongo.ASCENDING).limit(1):
  pprint(document) 

{'_id': ObjectId('5fe60bb2fc13ae64ea000064'),
 'address': {'city': 'Barrhead',
             'country': 'Canada',
             'street': '125 Buena Vista Terrace',
             'zip': 85894},
 'cart': [ObjectId('5fe6fc8ba789e6e217ef8a36'),
          ObjectId('5fe6fc8ba789e6e217ef8a9e'),
          ObjectId('5fe6fc8ba789e6e217ef89ef'),
          ObjectId('5fe6fc8ba789e6e217ef8acd'),
          ObjectId('5fe6fc8ba789e6e217ef872f'),
          ObjectId('5fe6fc8ba789e6e217ef8796'),
          ObjectId('5fe6fc8ba789e6e217ef8982'),
          ObjectId('5fe6fc8ba789e6e217ef8a28'),
          ObjectId('5fe6fc8ba789e6e217ef886c'),
          ObjectId('5fe6fc8ba789e6e217ef88e5'),
          ObjectId('5fe6fc8ba789e6e217ef8a07'),
          ObjectId('5fe6fc8ba789e6e217ef899d'),
          ObjectId('5fe6fc8ba789e6e217ef87c1')],
 'email': 'nmatskiv0@abc.net.au',
 'first_name': 'Neely',
 'last_login': datetime.datetime(2020, 6, 24, 22, 0),
 'last_name': 'Matskiv',
 'registration_date': datetime.datetime(2020, 6

<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

### 3.2 <b id="Aufgabenbereich2">Aufgabenbereich 2</b>

Warum muss die ObjectId bei einem neuen Dokument nicht angegeben werden?

In [None]:
mongo_lm.show_task(5)

Was passiert wenn der Cursor einmal ausgegeben wurde?

In [None]:
mongo_lm.show_task(6)

Erstellen Sie ein neues Dokument und fügen Sie es in die Collection "Customer" ein. Folgende Daten sollen enthalten sein:
<ol>
    <li>  <b>_id :</b> ObjectId()</li>
    <li>  <b>first_name :</b>Manuel</li>
    <li>  <b>last_name :</b>Mustermann</li>
    <li>  <b>email :</b>Manuel@Mustermann.de</li>
    <li>  <b>phone_number :</b>+49 125 145 1258</li>
    <li>  <b>last_login :</b>2011-11-09</li>
    <li>  <b>registration_date :</b> 2010-10-09</li>
</ol>

Zeigen Sie ihr neu erstelltest Dokument anschließend an

In [134]:
customer_col = store_db["Customer"]
new_customer = {
    "first_name" : "Manuel",
    "last_name" : "Mustermann",
    "email" : "Manuel@Mustermann.de",
    "phone_number" : "+49 125 145 1258",
    "last_login" : datetime.datetime.fromisoformat('2019-12-04'),
    "registration_date" : datetime.datetime.fromisoformat("2010-10-09")
}

customer_col.insert_one(new_customer)

documents = customer_col.find({"first_name":"Manuel"})
for doc in documents:
    pprint(doc)

{'_id': ObjectId('5fef71ee43696abc387931a1'),
 'email': 'Manuel@Mustermann.de',
 'first_name': 'Manuel',
 'last_login': datetime.datetime(2019, 12, 4, 0, 0),
 'last_name': 'Mustermann',
 'phone_number': '+49 125 145 1258',
 'registration_date': datetime.datetime(2010, 10, 9, 0, 0)}


Warum konnte das eben erstellte Dokument eingefügt werden obwohl das Beispiel das unter 3.1 gezeigt wurde noch die Felder "address" und "cart" enthält?

In [None]:
mongo_lm.show_task(7)

<div style="background-color: #168b33; padding: 5px; height: 50px;"></div>

## 4. <b id="Datenbestand">Betrachten des Datenbestandes</b>

### 4.1 <b id="JSON-Einlesen">Importieren eines JSON Datensatzes</b>
Die lokalen Daten werden in die MongoDB importiert.

In [136]:
grocery_col = store_db["Grocery"]

In [None]:
#!mongoimport --db Store --collection Grocery --file grocery.json --jsonArray

In [137]:
customer_col = store_db["Customer"]

In [None]:
#!mongoimport --db Store --collection Customer --file customer.json --jsonArray

### 4.2 <b id="Pandas">Datensatz mit Pandas anzeigen</b>

Zuerst werden wir die Daten direkt aus dem JSON Dokument, welches lokal in diesem System hinterlegt ist, betrachten. Dieses Dokument wurde aus der MongoDB exportiert und enthällt alle vorhandenen Daten aus der Grocery Collection.

In [141]:
df = pd.DataFrame(pd.read_json("data/grocery.json"))
df

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,{'$oid': '5fe6fc8ba789e6e217ef870c'},Energy Drink,"€10,52",True,75,25.0
1,{'$oid': '5fe6fc8ba789e6e217ef870d'},Coffee Decaf Colombian,"€16,33",False,18,
2,{'$oid': '5fe6fc8ba789e6e217ef870e'},Pork - Shoulder,"€10,32",False,63,
3,{'$oid': '5fe6fc8ba789e6e217ef870f'},Pastry - Plain Baked Croissant,"€4,39",True,95,76.0
4,{'$oid': '5fe6fc8ba789e6e217ef8710'},Scallops - U - 10,"€18,70",True,72,46.0
...,...,...,...,...,...,...
995,{'$oid': '5fe6fc8ba789e6e217ef8aef'},"Pepper - Black, Crushed","€6,15",False,15,
996,{'$oid': '5fe6fc8ba789e6e217ef8af0'},Ice Cream Bar - Oreo Sandwich,"€21,70",False,77,
997,{'$oid': '5fe6fc8ba789e6e217ef8af1'},Pasta - Fusili Tri - Coloured,"€1,19",False,73,
998,{'$oid': '5fe6fc8ba789e6e217ef8af2'},Wine - Fume Blanc Fetzer,"€8,44",True,94,41.0


Pandas kann den Datensatz nicht wie die MongoDB darstellen. Der Grund dafür ist das die MongoDB die BSON Datentypen im JSON Format als Embedded Document dargestellt werden.
Die MongoDB  ist zwar in der Lage die Daten als CSV Datensatz zu exportieren, aber dafür müssen beim Export Befehl in der Mongo Shell alle notwendigen Felder angegeben werden. Da jedes Dokument eine andere Struktur haben kann muss dieser Befehl abgeändert werden, wenn sich ein einzelnes Dokument um ein Feld vergrößert.

<b>Vorteil beim direkten auslesen aus der Datenbank: </b> Die Daten können live betrachtet, aktualisiert und bearbeitet werden. Aktualisierungen sind sofort sichtbar und es müssen keine zusätzlichen Dateien exportiert werden.

### 4.3 <b id="Direkt">Die Dokumente direkt auslesen und mit Pandas anzeigen</b>

Die Daten die in die MongoDB importiert worden sind, werden nun direkt aus der Collection ausgelesen und angezeigt. Um dies zu ermöglichen wird ein Object der Klassse MongoCursor angelegt welches auf die Dokumente verweist.

In [139]:
mongo_json = grocery_col.find({})

In [140]:
df = pd.DataFrame.from_records(mongo_json)
df

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,5fe6fc8ba789e6e217ef870c,Energy Drink,1052,True,75,25.0
1,5fe6fc8ba789e6e217ef870e,Pork - Shoulder,1032,False,63,
2,5fe6fc8ba789e6e217ef870d,Coffee Decaf Colombian,1633,False,18,
3,5fe6fc8ba789e6e217ef870f,Pastry - Plain Baked Croissant,439,True,95,76.0
4,5fe6fc8ba789e6e217ef8710,Scallops - U - 10,1870,True,72,46.0
...,...,...,...,...,...,...
995,5fe6fc8ba789e6e217ef8af0,Ice Cream Bar - Oreo Sandwich,2170,False,77,
996,5fe6fc8ba789e6e217ef8af2,Wine - Fume Blanc Fetzer,844,True,94,41.0
997,5fe6fc8ba789e6e217ef8af3,Contreau,1664,False,59,
998,5fe6fc8ba789e6e217ef8aeb,Syrup - Chocolate,795,True,18,32.0


Die Daten der Grocery Collection werden uns Korrekt angezeigt. Im nächsten Schritt wollen wir das gleiche mit den Customer-Daten aus der Customer Collection versuchen.

In [None]:
mongo_json = customer_col.find({})
df = pd.DataFrame.from_records(mongo_json)
df

Hierbei ist zu sehen, dass die Embedded Documents nicht als einzelne Spalte interpretiert werden. Diese Daten sollten aber auch korrekt dargestellt werden.

<b>Auslesen der Daten aus dem Embedded Document</b>

In [131]:
mongo_json = customer_col.find({})
md1 = []
mongo_data1 = {}
keys = ["_id","city", "country", "street","zip"]
for key in keys:
    mongo_json = customer_col.find({})
    for doc in mongo_json:
        if key == "_id":
            md1.append(doc["_id"])
        else:
            md1.append(doc["address"].get(key))
    mongo_data1.update({key:list(md1)})
    md1 = []

mongo_dataframe = pd.DataFrame(mongo_data1)
mongo_dataframe

Unnamed: 0,_id,city,country,street,zip
0,5fe60bb2fc13ae64ea000065,Suka Makmue,Indonesia,0 Merry Crossing,62476
1,5fe60bb2fc13ae64ea000067,São Miguel dos Campos,Brazil,6657 Crescent Oaks Place,77346
2,5fe60bb2fc13ae64ea000068,Muke,Indonesia,72207 Loeprich Center,11922
3,5fe60bb2fc13ae64ea000069,Nevinnomyssk,Russia,8959 Iowa Lane,72362
4,5fe60bb2fc13ae64ea000066,Haarlem,Netherlands,81633 Forest Parkway,49110
...,...,...,...,...,...
995,5fe60bb6fc13ae64ea000446,Innoshima,Japan,790 Esch Junction,37850
996,5fe60bb6fc13ae64ea000445,Černošín,Czech Republic,81 New Castle Junction,87477
997,5fe60bb6fc13ae64ea000449,Gludug,Indonesia,88870 Sutherland Pass,63962
998,5fe60bb6fc13ae64ea00044b,Alverca do Ribatejo,Portugal,8 Petterle Lane,28876


<b>Auslesen der Daten aus einem Array</b>

In [132]:
md1 = []
mongo_data1 = {}
keys = ["_id","cart"]
for key in keys:
    mongo_json = customer_col.find({})
    for doc in mongo_json:
        if key == "_id":
            md1.append(doc["_id"])
        else:
            md1.append(doc["cart"])
    mongo_data1.update({key:list(md1)})
    md1 = []

mongo_dataframe = pd.DataFrame(mongo_data1)
mongo_dataframe

Unnamed: 0,_id,cart
0,5fe60bb2fc13ae64ea000065,"[5fe6fc8ba789e6e217ef88bf, 5fe6fc8ba789e6e217e..."
1,5fe60bb2fc13ae64ea000067,"[5fe6fc8ba789e6e217ef88d1, 5fe6fc8ba789e6e217e..."
2,5fe60bb2fc13ae64ea000068,"[5fe6fc8ba789e6e217ef8764, 5fe6fc8ba789e6e217e..."
3,5fe60bb2fc13ae64ea000069,"[5fe6fc8ba789e6e217ef88be, 5fe6fc8ba789e6e217e..."
4,5fe60bb2fc13ae64ea000066,"[5fe6fc8ba789e6e217ef89a0, 5fe6fc8ba789e6e217e..."
...,...,...
995,5fe60bb6fc13ae64ea000446,"[5fe6fc8ba789e6e217ef872e, 5fe6fc8ba789e6e217e..."
996,5fe60bb6fc13ae64ea000445,"[5fe6fc8ba789e6e217ef8886, 5fe6fc8ba789e6e217e..."
997,5fe60bb6fc13ae64ea000449,"[5fe6fc8ba789e6e217ef89c5, 5fe6fc8ba789e6e217e..."
998,5fe60bb6fc13ae64ea00044b,"[5fe6fc8ba789e6e217ef87ed, 5fe6fc8ba789e6e217e..."


<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

### 4.4 <b id="Aufgabenbereich3">Aufgabenbereich 3</b>

Warum zeigt Pandas an, wenn die Daten als JSON Exportiert werden?

In [None]:
mongo_lm.show_task(8)

Sind CSV Dateien eine Option um den Datenbestand zu betrachten?

In [None]:
mongo_lm.show_task(9)

Zeign Sie alle Dokumente an die in der Collection "customer" aus der Datenbank "store_db" sind.

In [152]:
customer_col = store_db["Customer"]
customer_data = customer_col.find()

customer_dataframe = pd.DataFrame(customer_data)
customer_dataframe.count()

_id                  1001
first_name           1001
last_name            1001
email                1001
last_login           1001
registration_date    1001
address              1000
cart                 1000
phone_number          463
dtype: int64

Wie viele Dokumente sind in der Collection enthalten?

In [163]:
mongo_lm.show_task(10)

Output()

Output()

Output()

Zeign Sie alle Dokumente an die in der Collection "grocery" aus der Datenbank "store_db" sind.

In [164]:
customer_col = store_db["Grocery"]
customer_data = customer_col.find()

customer_dataframe = pd.DataFrame(customer_data)
customer_dataframe.count()

_id         1000
product     1000
price       1000
in_stock    1000
sold        1000
stock        476
dtype: int64

Wie viele Dokumente sind in der Collection enthalten?

In [165]:
mongo_lm.show_task(11)

Output()

Output()

Output()

<div style="background-color: #168b33; padding: 5px; height: 50px;"></div>

## 5 <b id="Queries">Erstellen von Queries mit den MongoDB Operatoren</b>

Da wir nun im Kapitel 2 gesehen haben wie mit der MongoDB interagiert werden kann und in Kapiel 3 betrachtet wurde wie die Daten vorliegen, können nun Anfragen an die Datenbank erstellt werden.

Hierzu werden die MongoDB Operatoren verwendet. Diese ermöglichen es spezifische Anfragen zum vergleichen oder das suchen von Dokumenten zu implementieren.

<table style="font-size:14px">
	<tbody >
        <tr>
            <td style="width: 200px;text-align: center;" align="center"><b>Operation</b></td>
            <td style="width: 200px;text-align: center;" align="center"><b>Syntax</b></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Equality</td>
			<td style="width: 200px;text-align: center;" align="center">\$eq</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Not Equal</td>
			<td style="width: 200px;text-align: center;" align="center">\$ne</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Less Than oder Less Than Equal</td>
			<td style="width: 200px;text-align: center;" align="center">\$lt oder \$lte</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Greater Than oder Greater Than Equal</td>
			<td style="width: 200px;text-align: center;" align="center">\$gt oder $gte</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Values in an array</td>
			<td style="width: 200px;text-align: center;" align="center">\$in</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Logisches Und</td>
			<td style="width: 200px;text-align: center;" align="center">\$and</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Logisches Oder</td>
			<td style="width: 200px;text-align: center;" align="center">\$or</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Ob ein Feld existiert</td>
			<td style="width: 200px;text-align: center;" align="center">\$exists</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Nach einem regulären Ausdruck filtern</td>
			<td style="width: 200px;text-align: center;" align="center">\$regex</td>
		</tr>
	</tbody>
</table>

In [None]:
grocery_col = store_db["Grocery"]

<b>Beispiel:</b> Aus der Collection "Grocery" sollen alle Produkte ausgegeben werden die nicht vorrätig sind.

In [None]:
cursor = grocery_col.find({"in_stock" : { "$eq" : False }})
df = pd.DataFrame(cursor)
df

<b>Beispiel:</b> Aus der Collection "Grocery" sollen alle Produkte ausgegeben werden die häufiger als 99x verkauft wurden.

In [None]:
cursor = grocery_col.find({"sold":{"$gt":99}})
df = pd.DataFrame(cursor)
df

<b>Beispiel:</b> Aus der Collection "Grocery" sollen alle Produkte ausgegeben werden von dennen weniger als 5 auf Lager sind aber mehr als 3.

In [None]:
cursor = grocery_col.find({"$and": [{"stock":{"$gt":3}},{"stock":{"$lt":5}}]})
df = pd.DataFrame(cursor)
df

<b>Beispiel:</b> Aus der Collection "Grocery" und der Collection "Customer" sollen alle Produkte ausgegeben werden die der Kunde mit der ID <b>"5fe60bb2fc13ae64ea000067"</b> gekauft hat.

In [None]:
customer_col = store_db["Customer"]
result = customer_col.find({"_id":ObjectId("5fe60bb2fc13ae64ea000067")})
list_of_products = []
for doc in result:
    list_of_products = doc["cart"].copy()
df = pd.DataFrame(list_of_products)
df

In [None]:
grocery_col = store_db["Grocery"]
cursor = grocery_col.find({"_id":{"$in":list_of_products}})
df = pd.DataFrame(cursor)
df

### 5.1 <b id="Aufgabenbereich4">Aufgabenbereich 4</b>

<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

Zeige alle Produkte an die die Kundin mit dem Namen <b>"Bryn Legat"</b> eingekauft hat.

In [169]:
customer_col = store_db["Customer"]
result = customer_col.find({"first_name" : "Bryn" })

list_of_products = []
for doc in result:
    list_of_products = doc["cart"].copy()

grocery_col = store_db["Grocery"]
cursor = grocery_col.find({"_id":{"$in":list_of_products}})


df = pd.DataFrame(cursor)
df = df.astype(str)
mongo_lm.show_task(101,df)

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,5fe6fc8ba789e6e217ef8764,Bread - Triangle White,682,True,12,1.0
1,5fe6fc8ba789e6e217ef8920,Mountain Dew,1625,True,47,11.0
2,5fe6fc8ba789e6e217ef8a85,Onions - Spanish,942,False,28,
3,5fe6fc8ba789e6e217ef8ae0,Hand Towel,546,False,42,


Output()

Output()

Zeigen Sie nur die Produkte an die das Feld "stock" beinhalten. Limitieren Sie die Ausgabe auf die ersten 3 Dokumente.

In [179]:
customer_col = store_db["Grocery"]
result = customer_col.find({"stock":{"$exists":1}}).limit(3)
df = pd.DataFrame(result)
df = df.astype(str)
mongo_lm.show_task(102,df)

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,5fe6fc8ba789e6e217ef870c,Energy Drink,1052,True,75,25
1,5fe6fc8ba789e6e217ef870f,Pastry - Plain Baked Croissant,439,True,95,76
2,5fe6fc8ba789e6e217ef8710,Scallops - U - 10,1870,True,72,46


Output()

Output()

Ein Produkt war wohl sehr beliebt und damit genug davon auf Vorrat vorhanden sind, sollen folgende Anfrage erstellt werden:
Es sollen alle Produkte ausgegeben werden, die mehr als 90x  verkauft wurden. Das Produkt soll aber noch auf Lage sein ("in_stock":True) und es dürfen nicht mehr als 5 Stück im Lager sein.
Verbinden Sie dazu mehrere Operatoren mit dem logischen UND Operator.

In [200]:
customer_col = store_db["Grocery"]
result = grocery_col.find({"$and": [{"sold":{"$gte":90}},{"in_stock":True},{"stock":{"$lte":5}}]})
df = pd.DataFrame(result)
df
df = df.astype(str)
mongo_lm.show_task(103,df)

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,5fe6fc8ba789e6e217ef899a,Wine - White Cab Sauv.on,1817,True,94,2


Output()

Output()

<div style="background-color: #168b33; padding: 5px;height: 50px;"></div>

## 6 <b id="Pipeline">Aggregation Pipeline</b>

Aggregationsoperationen werden verwendet um Ergebnisse zu berechnen, Daten welche in vielen Dokumenten vorliegen unter einem Key zu gruppieren oder um ein Ergebniss in einer seperaten Collection abzuspeichern. Weiterhin können viele Operationen zu einer Pipeline angereiht werden. Die Operationen werden dann auf die bereits gruppierten Ergebnisse angewendet was die Möglichkeiten zur Datenverarbeitung umfassend erweitert.

![](./img/pipeline.jpg)

### 6.1 <b id="Pipeline-Stages-Operatoren">Unterschied zwischen Operatoren und Stages</b>

<b>Operatoren:</b></br>

Die Operatoren die wir im vorherigen Kapitel betrachtet haben können ebenfalls in einer Pipeline verwendet werden. Diese sind aber erweitert worden und sollten nicht mit den Stages verwechselt werden. Die Operatoren werden verwendet um Ausdrücke und Anfragen an den Datenbestand zu generieren. Sie werden innerhalb einer Pipeline-Stage verwendet. Einige neue Beispiele sind hier aufgelistet:

<table style="font-size:14px;width:900px !important;">
	<tbody >
        <tr>
            <td style="width: 200px;text-align: center;" align="center"><b>Operation</b></td>
            <td style="width: 200px;text-align: center;" align="center"><b>Syntax</b></td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Zerlegt einen Array-Feld innerhalb der Eingabedokumente, um für jedes Element ein Dokument auszugeben</td>
			<td style="width: 200px;text-align: center;" align="center">\$unwind</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Schreibt das Resultat in eine neue Collection (muss als letztes ausgeführt werden)</td>
			<td style="width: 200px;text-align: center;" align="center">\$out</td>
		</tr>
	</tbody>
</table>

<b>Stages:</b>


<table style="font-size:14px;width:900px !important;">
	<tbody >
        <tr>
            <td style="width: 200px;text-align: center;" align="center"><b>Operation</b></td>
            <td style="width: 200px;text-align: center;" align="center"><b>Syntax</b></td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center">Left outer join. Bindet Dokumente aus einer anderen Collection mit ein. Die zusätzlichen Dokumente werden als Array in die bestehenden Dokumente eingefügt.</td>
			<td style="width: 200px;text-align: center;" align="center">\$lookup</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center">Gruppieren anhand eines Feldes</td>
			<td style="width: 200px;text-align: center;" align="center">\$group</td>
		</tr>
		<tr>
			<td style="width: 200px;text-align: center;" align="center"></td>
			<td style="width: 200px;text-align: center;" align="center">\$match</td>
		</tr>
        <tr>
			<td style="width: 200px;text-align: center;" align="center"></td>
			<td style="width: 200px;text-align: center;" align="center">\$sort</td>
		</tr>
	</tbody>
</table>

### 6.2 <b id="Pipeline-Syntax">Implementieren einer Pipeline (Syntax)</b>

Syntax:</br>

pipeline = [
    { stage1: {operators...} },
    { stage2: {operators...} },
    .
    .
    .
    { stageN: {operators...} }
]

### 6.3 <b id="Pipeline-Beispiele">Beispiele mit der Aggregation Pipeline</b>

Um ein <b>Beispiel</b> zu demonstrieren verwenden wir wieder die Customer Datenbank

In [201]:
customer_col = store_db["Customer"]

In der folgen Pipeline werden 4 Stages angereiht und mit verschiedenen Operatoren bearbeitet.</br>

<b>Stages:</b>
<ol>
  <li><b>\$group:</b> Gruppiert alle eingehenden Dokumente mit der ID anhand eines Bestimmten Wertes.</li>
  Vegleichbar mit SQL: <b style="color: green">GROUP by</b>
  Ein neues Feld "count" wird erzeugt welches +1 addiert, wenn ein Dokument gruppiert wurde. </br>
  
  <li><b>\$match:</b> Untersucht die Dokumente anhand bestimmer Konditionen.</li>
  Vegleichbar mit SQL: <b style="color: green">WHERE</b>
  Auf dem neu erzeugten Feld "count" wird der greater than Operator angewendet.
  
  <li><b>\$match:</b> Verhalten ist gleich mit Stage 2 aber ein anderer Operator wird verwendet.</li>
  Der Operator $regex untersucht die Länder anhand eines regulären Ausdruckes.

  <li><b>\$sort:</b> Sortiert die Werte anhand eines Values. 
  Der Wert -1 entspicht absteigend. 1 entspricht    aufsteigend</li>
  Der Operator $regex untersucht die Länder anhand eines regulären Ausdruckes.
</ol>  

In [202]:
pipeline = [
    {"$group": {"_id": "$address.country", "count": {"$sum": 1}}},
    {"$match": {"count": {"$gt": 10}}},
    {"$match": {"_id": {"$regex": '^Po*'}}},
    {"$sort": SON([("count", -1)])}
]

print(type(pipeline))
df = pd.DataFrame(customer_col.aggregate(pipeline))
df

<class 'list'>


Unnamed: 0,_id,count
0,Philippines,44
1,Poland,32
2,Portugal,32
3,Peru,23


Den Preis für alle Produkt die Eleni eingekauft hat.

In [203]:
pipeline = [
    {"$addFields": {"price": {"$trim": {"input": "$price", "chars": "€"}}}},
]
documents = grocery_col.aggregate(pipeline)
for doc in documents:
    _id = {"_id":doc.get("_id")}
    grocery_col.update_one(_id,{"$set":doc})

df = pd.DataFrame(grocery_col.aggregate(pipeline))
df

Unnamed: 0,_id,product,price,in_stock,sold,stock
0,5fe6fc8ba789e6e217ef870c,Energy Drink,1052,True,75,25.0
1,5fe6fc8ba789e6e217ef870e,Pork - Shoulder,1032,False,63,
2,5fe6fc8ba789e6e217ef870d,Coffee Decaf Colombian,1633,False,18,
3,5fe6fc8ba789e6e217ef870f,Pastry - Plain Baked Croissant,439,True,95,76.0
4,5fe6fc8ba789e6e217ef8710,Scallops - U - 10,1870,True,72,46.0
...,...,...,...,...,...,...
995,5fe6fc8ba789e6e217ef8af0,Ice Cream Bar - Oreo Sandwich,2170,False,77,
996,5fe6fc8ba789e6e217ef8af2,Wine - Fume Blanc Fetzer,844,True,94,41.0
997,5fe6fc8ba789e6e217ef8af3,Contreau,1664,False,59,
998,5fe6fc8ba789e6e217ef8aeb,Syrup - Chocolate,795,True,18,32.0


Alle Produktdaten von allen Produkten die ein Kunde gekauft hat.

In [28]:
pipeline = [
    {"$lookup": { "from":"Grocery", "localField":"cart", "foreignField":"_id","as": "bought"}},
    {"$project": { "bought": True, "cart": True,"_id": False } },
    {"$limit":1}
]

for doc in customer_col.aggregate(pipeline):
    pprint(doc)

{'bought': [{'_id': ObjectId('5fe6fc8ba789e6e217ef8733'),
             'in_stock': False,
             'price': '19,38',
             'product': 'Sun - Dried Tomatoes',
             'sold': 92},
            {'_id': ObjectId('5fe6fc8ba789e6e217ef88b3'),
             'in_stock': True,
             'price': '15,70',
             'product': 'Cloves - Whole',
             'sold': 71,
             'stock': 82},
            {'_id': ObjectId('5fe6fc8ba789e6e217ef88bf'),
             'in_stock': True,
             'price': '8,90',
             'product': 'Wine - Bourgogne 2002, La',
             'sold': 69,
             'stock': 57},
            {'_id': ObjectId('5fe6fc8ba789e6e217ef8981'),
             'in_stock': False,
             'price': '11,47',
             'product': 'Yokaline',
             'sold': 25},
            {'_id': ObjectId('5fe6fc8ba789e6e217ef8a64'),
             'in_stock': True,
             'price': '2,20',
             'product': 'Wine - Blue Nun Qualitatswein',
        

<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

### 6.4 <b id="Aufgabenbereich5">Aufgabenbereich 5</b>

preis umwandeln in numberint

<div style="background-color: #168b33; padding: 5px;height: 50px;"></div>

## 7 <b id="Map">Map-Reduce</b>

In [None]:
from bson.code import Code
mapper = Code
("""
    function () {
        this.tags.forEach(function(z) {
            emit(z, 1);
        });
    }
""")

In [None]:
reducer = Code("""
                function (key, values) {
                  var total = 0;
                  for (var i = 0; i < values.length; i++) {
                    total += values[i];
                  }
                  return total;
                }
                """)

<div style="background-color:  #168b33; padding: 5px;height: 15px;"></div>

### 7.1 <b id="Aufgabenbereich6">Aufgabenbereich 6</b>

<div style="background-color: #168b33; padding: 5px;height: 50px;"></div>

## 8 <b id="Abschlussaufgabe">Abschlussaufgabe</b>

Erstellen Sie mit Hilfe der Aggregation Pipeline eine neue Collection "Transactions" die alle Einkäufe in auflistet.

### 8.1 <b id="Aufgabenbereich7">Aufgabenbereich 7</b>

In [None]:
### Notizen für das Development -> fällt später weg

https://docs.mongodb.com/manual/reference/sql-comparison/