# Kapitel 7: NoSQL mit MongoDB und Python

MongoDB ist eine dokumentenorientierte NoSQL-Datenbank, die auf einem verteilten Architekturansatz basiert. Im Gegensatz zu relationalen Datenbanken verwendet MongoDB keine Tabellen, sondern speichert Daten als Dokumente im BSON-Format (Binary JSON). MongoDB ist sehr skalierbar und kann auf einer Vielzahl von Plattformen eingesetzt werden.

MongoDB ist in der Lage, **grosse Datenmengen** sehr schnell zu verarbeiten und abzufragen, da es speziell für die Verarbeitung von unstrukturierten Daten optimiert wurde.

PyMongo ist eine Python-Bibliothek, die es ermöglicht, MongoDB-Datenbanken von Python-Code aus zu manipulieren. PyMongo ist ein Python-Treiber für MongoDB und stellt eine API bereit, die es ermöglicht, Verbindungen zu MongoDB herzustellen, Daten zu speichern, abzurufen und zu löschen. Mit PyMongo können Entwickler Python-Anwendungen erstellen, die mit MongoDB-Datenbanken interagieren.

PyMongo Dokumentation: https://pymongo.readthedocs.io/


## Installation

Installation pymongo in unserem Environment
Wir benötigen auch das Modul geojson

    conda activate geopython38
    conda install pymongo geojson -c conda-forge

In [2]:
from pymongo import MongoClient
from getpass import getuser

Wir erstellen eine Datenbank. Da wir alle auf dieselbe Datenbank zugreifen, verwenden wir den aktuellen Usernamen des Systems, so ist gewährleistet, dass wir alle einen anderen Datenbanknamen haben.

In [3]:
dbname = "GP2-" + getuser().replace(" ","").lower()

In [4]:
print(dbname)

GP2-fruef


## Mit der Datenbank verbinden

Der Datenbankzugang ist folgendermassen gegeben:
Normalerweise sind MongoDB Server (resp. Datenbanken im Allgemeinen) nicht von aussen zugänglich und die Programme laufen lokal (z.B. als Webdienst). Da wir aber nicht aller verkomplizieren wollen, ist nun dieser Server von überall her zugänglich, dafür Passwortgeschützt.


    Server: db.geopython.xyz
    Port: 27017 (Standard MongoDB Port)
    User: igeo
    Passwort: m0nG0&dB!
    
Falls MongoDB Lokal installiert wurde kann man folgendermassen (ohne Passwort/User) verbinden:

    client = MongoClient("localhost")

In [5]:
client = MongoClient("db.geopython.xyz",
                     username="igeo",
                     password="m0nG0&dB!")

In [6]:
db = client[dbname]

Falls das Jupyternotebook schon zuvor ausgeführt wurde: wir löschen alles! Falls nicht, ist es egal.

Dies ist natürlich eine sehr gefährliche Operation und sollte in der Realität so nie aufgerufen werden!<br/>
**LÖSCHT WIRKLICH ALLES**

In [7]:
for c in db.list_collection_names():
    db[c].drop()

## Datenbank anlegen

In MongoDB werden "Collections" (Sammlungen) angelegt, dies sind im Prinzip Dokumente in einer Gruppe.

Eine Collection wird einfach mit **db.IRGEND_EIN_NAME** erstellt. Wir erstellen unsere erste Collection mit Namen "personen":

In [8]:
collection = db.personen

## Dokumente hinzufügen

Dokumente werden in JSON (JavaScript Object Notation) angelegt:

In [9]:
JSON =  {"Vorname": "Hans",
         "Nachname": "Meier",
         "Geburtstag": "2003/05/30",
         "Beruf": "Schreiner" }

In [10]:
JSON

{'Vorname': 'Hans',
 'Nachname': 'Meier',
 'Geburtstag': '2003/05/30',
 'Beruf': 'Schreiner'}

In [11]:
record = collection.insert_one(JSON)

Natürlich kann man sich den Umweg über die Variable JSON sparen, und direkt ein JSON Objekt hinzufügen:

In [12]:
record = collection.insert_one({
            "Vorname": "Anna",
            "Nachname": "Müller",
            "email": "anna.mueller@emailprovider.com" 
        })

Wir haben jedoch im 2. Eintrag ein komplett anderes Schema verwendet! Wo ist Geburtstag und Beruf???

Genau das ist NoSQL - wir sind grundsätzlich Schemalos, wir können einfach JSON Daten in die Datenbank abfüllen. Jedoch ist es in der Praxis natürlich sinnvoll ein Schema zu definieren, welches uns dann auch Abfragen ermöglicht.

Was haben wir bisher für Collections in unserer Datenbank ?

In [13]:
db.list_collection_names()

['personen']

Wir können nun mit einem GUI - ganz ohne Python - zur DB Verbinden. Falls installiert können wir MongoDB Compass starten und mit der Datenbank verbinden. Wir sehen auch alle Datenbanken von allen (wir alle haben Admin Zugang!). Wir öffnen unsere Eigene -> dbname

![](compass.png)

## Abfragen

Die wichtigsten Abfragen in MongoDB sind:

| Abfrage | Beschreibung | Beispiel |
|---------|-------------|----------|
| `insert_one()` | Fügt ein Dokument in eine Sammlung ein. | `collection.insert_one({ "name": "Max Mustermann", "alter": 30 })` |
| `insert_many()` | Fügt mehrere Dokumente in eine Sammlung ein. | `collection.insert_many([{ "name": "Max Mustermann", "alter": 30 }, { "name": "Anna Meier", "alter": 25 }])` |
| `find_one()` | Ruft das erste Dokument aus einer Sammlung ab, das der Abfrage entspricht. | `collection.find_one({ "name": "Max Mustermann" })` |
| `find()` | Ruft alle Dokumente aus einer Sammlung ab, die der Abfrage entsprechen. | `collection.find({ "alter": { "$gt": 20 } })` |
| `update_one()` | Aktualisiert das erste Dokument aus einer Sammlung, das der Abfrage entspricht. | `collection.update_one({ "name": "Max Mustermann" }, { "$set": { "alter": 31 } })` |
| `update_many()` | Aktualisiert alle Dokumente aus einer Sammlung, die der Abfrage entsprechen. | `collection.update_many({ "alter": { "$lt": 30 } }, { "$set": { "alter": 30 } })` |
| `delete_one()` | Löscht das erste Dokument aus einer Sammlung, das der Abfrage entspricht. | `collection.delete_one({ "name": "Max Mustermann" })` |
| `delete_many()` | Löscht alle Dokumente aus einer Sammlung, die der Abfrage entsprechen. | `collection.delete_many({ "alter": { "$lt": 30 } })` |


In [14]:
for item in collection.find():
    print(item)

{'_id': ObjectId('646e25814d29cb1155e546fa'), 'Vorname': 'Hans', 'Nachname': 'Meier', 'Geburtstag': '2003/05/30', 'Beruf': 'Schreiner'}
{'_id': ObjectId('646e25814d29cb1155e546fb'), 'Vorname': 'Anna', 'Nachname': 'Müller', 'email': 'anna.mueller@emailprovider.com'}


Anstatt die Variable "collection" zu verwenden, können wir das auch über den Client und Datenbanknamen tun:

In [15]:
for item in client[dbname].personen.find():  
    print(item)

{'_id': ObjectId('646e25814d29cb1155e546fa'), 'Vorname': 'Hans', 'Nachname': 'Meier', 'Geburtstag': '2003/05/30', 'Beruf': 'Schreiner'}
{'_id': ObjectId('646e25814d29cb1155e546fb'), 'Vorname': 'Anna', 'Nachname': 'Müller', 'email': 'anna.mueller@emailprovider.com'}


Wir können auch jederzeit alle Datenbanken anzeigen, wir sind admin und haben Zugriff auf alles
(zum jetzigen Zeitpunkt gibt es nur meine, sobald mehr Studierende die Datenbanken anlegen ist es hier voller Datenbanken!)

In [16]:
dbs = client.list_database_names()
print(dbs)

['GP2-andre', 'GP2-benjg', 'GP2-carmen', 'GP2-domin', 'GP2-fabia', 'GP2-flavi', 'GP2-fruef', 'GP2-josep', 'GP2-kuhnt', 'GP2-lenns', 'GP2-livia', 'GP2-mario', 'GP2-marosch', 'GP2-marti', 'GP2-martina', 'GP2-matti', 'GP2-matus', 'GP2-mchristen', 'GP2-phili', 'GP2-rbl', 'GP2-sarahauser', 'GP2-silva', 'GP2-ssidl', 'GP2-startklar', 'GP2-stefa', 'GP2-theoreibel', 'GP2-timvonfelten', 'GP2-yamen', 'admin', 'config', 'local']


### Abfragen mit .find(...)

| Abfrage | Beschreibung | Beispiel |
|---------|-------------|----------|
| `find()` | Ruft alle Dokumente aus einer Sammlung ab, die der Abfrage entsprechen. | `collection.find()` |
| `find().count()` | Gibt die Anzahl der Dokumente zurück, die der Abfrage entsprechen. | `collection.find({ "alter": { "$lt": 30 } }).count()` |
| `find().sort()` | Sortiert die zurückgegebenen Dokumente. | `collection.find().sort("name")` |
| `find().limit()` | Begrenzt die Anzahl der zurückgegebenen Dokumente. | `collection.find().limit(5)` |
| `find().skip()` | Überspringt eine bestimmte Anzahl von Dokumenten. | `collection.find().skip(5)` |
| `find().distinct()` | Gibt eine Liste der eindeutigen Werte für ein bestimmtes Feld zurück. | `collection.find().distinct("name")` |
| `find().aggregate()` | Führt eine Aggregation auf den zurückgegebenen Dokumenten aus. | `collection.find().aggregate([{ "$group": { "_id": "$name", "durchschnittsalter": { "$avg": "$alter" } } }])` |


### Neuer Datensatz

Wie schon zuvor erwähnt: In PyMongo gibt es keine festen Schemas wie in relationalen Datenbanken. Stattdessen können Dokumente in MongoDB innerhalb derselben Sammlung unterschiedliche Strukturen haben.

Allerdings gibt es in PyMongo eine Möglichkeit, die Struktur eines Dokuments zu definieren, indem man ein sogenanntes "Schema" erstellt. Ein Schema ist eine Python-Klasse, die die Struktur des Dokuments definiert, indem sie die Felder und deren Datentypen festlegt. Hier ist ein Beispiel:

## Komplexerer Datensatz (ohne Geodaten)

Um komplexere Abfragen zu tätigen, benötigen wir eine bessere Datenbank. Eine Liste von Büchern findet sich in der Datei books.json.
Dort ist eine Liste von Büchern zu finden. Wir öffnen das File mit dem Python json Modul:

Quelle Datensatz: https://raw.githubusercontent.com/bvaughn/infinite-list-reflow-examples/master/books.json

In [17]:
import json

file = open("data/books.json", encoding="utf-8")
books = json.load(file)
file.close()

In [18]:
print(books[0])

{'title': 'Unlocking Android', 'isbn': '1933988673', 'pageCount': 416, 'publishedDate': {'$date': '2009-04-01T00:00:00.000-0700'}, 'thumbnailUrl': 'https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ.book-thumb-images/ableson.jpg', 'shortDescription': "Unlocking Android: A Developer's Guide provides concise, hands-on instruction for the Android operating system and development tools. This book teaches important architectural concepts in a straightforward writing style and builds on this with practical and useful examples throughout.", 'longDescription': "Android is an open source mobile phone platform based on the Linux operating system and developed by the Open Handset Alliance, a consortium of over 30 hardware, software and telecom companies that focus on open standards for mobile devices. Led by search giant, Google, Android is designed to deliver a better and more open and cost effective mobile experience.    Unlocking Android: A Developer's Guide provides concise, hands-on instruction f

Das Datum fällt eventuell auf mit dieser "$date" schreibweise, wir sehen das noch genauer an.

Wir haben in unserem Datensatz Total 394 Bücher:

In [19]:
len(books)

394

wir könnten diese jetzt einzeln der Datenbank hinzufügen:

    book_collection = db.books 
    for book in books:
        book_collection.insert_one(book)
        

Jedoch ist das ineffizient. Es gibt eine bessere Funktion namens "insert_many" um direkt eine Liste von JSON in die Datenbank abzufüllen:

In [20]:
book_collection = db.books
records = book_collection.insert_many(books)

Wir können nun die Daten in der Datenbank auflisten. Mit limit(3) zeigen wir nur die ersten 3 an:

In [21]:
for item in book_collection.find().limit(3):
    print(item)

{'_id': ObjectId('646e25834d29cb1155e546fc'), 'title': 'Unlocking Android', 'isbn': '1933988673', 'pageCount': 416, 'publishedDate': {'$date': '2009-04-01T00:00:00.000-0700'}, 'thumbnailUrl': 'https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ.book-thumb-images/ableson.jpg', 'shortDescription': "Unlocking Android: A Developer's Guide provides concise, hands-on instruction for the Android operating system and development tools. This book teaches important architectural concepts in a straightforward writing style and builds on this with practical and useful examples throughout.", 'longDescription': "Android is an open source mobile phone platform based on the Linux operating system and developed by the Open Handset Alliance, a consortium of over 30 hardware, software and telecom companies that focus on open standards for mobile devices. Led by search giant, Google, Android is designed to deliver a better and more open and cost effective mobile experience.    Unlocking Android: A Developer's G

### Nur Titel anzeigen

Das ist sehr unübersichtlich. Wir können auch nur die Buchtitel anzeigen (es ist ja JSON... resp. ein Python Dictionary)

In [22]:
for item in book_collection.find().limit(10):
    print(item["title"])

Unlocking Android
Android in Action, Second Edition
Specification by Example
Flex 3 in Action
Flex 4 in Action
Collective Intelligence in Action
Zend Framework in Action
Flex on Java
Griffon in Action
OSGi in Depth


### Alle Bücher mit mehr als 800 Seiten

Die Seitenzahl ist mit dem key "pageCount" gesetzt.
$gt steht für greater than, also grösser.

In [23]:
for item in book_collection.find({'pageCount': 
                          {"$gt": 800}}):
    print(item["title"], item["pageCount"])

Java Persistence with Hibernate 880
Essential Guide to Peoplesoft Development and Customization 1101
Java Foundation Classes 1088
Java Network Programming, Second Edition 860
The Awesome Power of Direct3D/DirectX 840
SQL Server MVP Deep Dives 848
SQL Server MVP Deep Dives 848
SQL Server MVP Deep Dives 848
Silverlight 5 in Action 925
Ten Years of UserFriendly.Org 1096


Scheinbar gibt es doppelte Einträge...

### Alle Bücher mit Seiten zwischen 600 und 700

In [24]:
for item in book_collection.find({'pageCount': 
                          {"$gt": 600, "$lt": 700}}):
    print(item["title"], item["pageCount"])

Ajax in Action 680
Seam in Action 624
Python and Tkinter Programming 688
GWT in Action 632
Java Development with Ant 672
Struts in Action 672
Groovy in Action 696
Microsoft Reporting Services in Action 656
SQR in PeopleSoft and Other Applications, Second Edition 696
iText in Action 688
wxPython in Action 620
JSP Tag Libraries 656
XDoclet in Action 624


### Nach Büchern mit "Python" im Titel suchen

Dies geschieht mit dem Regex-Standard (Regular Expressions)

In [25]:
query = {"title" : {"$regex" : "Python$"}}

for item in book_collection.find(query):
    print(item['title'])


Hello! Python
Geoprocessing with Python


Regex ist relativ komplex, und wir können nicht auf alles eingehen, hier sind die wichtigsten Ausdrücke:

| Regulärer Ausdruck | Beschreibung | Beispiel |
| --- | --- | --- |
| `.` | Jedes einzelne Zeichen | `a.c` passt auf "abc", "aec", "afc", usw. |
| `^` | Beginnt mit | `^abc` passt auf "abcdef", "abcxyz", aber nicht auf "xyzabc" |
| `$` | Endet mit | `xyz$` passt auf "pqrxyz", "lmnxyz", aber nicht auf "xyzlmn" |
| `*` | Null oder mehr Wiederholungen des vorherigen Zeichens | `ab*c` passt auf "ac", "abc", "abbc", "abbbc", usw. |
| `+` | Eines oder mehrere Wiederholungen des vorherigen Zeichens | `ab+c` passt auf "abc", "abbc", "abbbc", usw., aber nicht auf "ac" |
| `?` | Null oder eine Wiederholung des vorherigen Zeichens | `ab?c` passt auf "ac" oder "abc" |
| `[]` | Beliebiges Zeichen innerhalb der Klammern | `[abc]` passt auf "a", "b", oder "c" |
| `[^]` | Jedes Zeichen ausserhalb der Klammern | `[^abc]` passt auf jedes Zeichen ausser "a", "b", oder "c" |
| `()` | Gruppierung von Ausdrücken | `(abc)+` passt auf "abc", "abcabc", "abcabcabc", usw. |
| `\d` | Jede Ziffer (0-9) | `\d+` passt auf "123", "456", "789", usw. |
| `\w` | Jeder Buchstabe, jede Ziffer und der Unterstrich | `\w+` passt auf "abc123", "xyz_123", "123_abc", usw. |
| `\s` | Jedes Leerzeichen, Tabulator oder Zeilenumbruch | `Hello\sWorld` passt auf "Hello World", "Hello\tWorld", "Hello\nWorld", usw. |
| `\.` | Das Punktzeichen (wenn es als Literal verwendet wird) | `Mr\.Smith` passt auf "Mr.Smith", aber nicht auf "MrSmith" |
| `\+` | Das Pluszeichen (wenn es als Literal verwendet wird) | `2\+2` passt auf "2+2", aber nicht auf "22" |
| `\|` | Alternatives Muster | `hello\|world` passt auf "hello" oder "world" |
| `\\` | Das Escape-Zeichen | `I\\O` passt auf "I/O", aber nicht auf "IO" |



### Datum

Wir haben gesehen, dass das Datum (Publikationsdatum) relativ speziell definiert ist:

Dies ist das ISO 8601-Format mit der UTC-Zeitzone. Wir können das in ein Python Datum umwandeln. 

Zeitzonen sind jedoch mühsam und sollten vermieden werden. Am besten alles in derselben Zeitzone speichern (wenn möglich).

<b> man verwendet nie unterschiedliche Zeitzonen im selben Datensatz! </b>

In [26]:
beispiel = {
   'publishedDate': {'$date': '2009-04-01T00:00:00.000-0700'}
}

In [27]:
from datetime import datetime, timezone, timedelta

In [28]:
date_str = beispiel['publishedDate']['$date']
print(date_str)

2009-04-01T00:00:00.000-0700


In [29]:
# Datumsobjekt ohne Zeitzone:
date_obj = datetime.strptime(date_str[:-7], '%Y-%m-%dT%H:%M:%S.%f')
date_obj

datetime.datetime(2009, 4, 1, 0, 0)

In [30]:
td = timedelta(hours=int(date_str[-5:-2]), minutes=int(date_str[-2:]))
tz = timezone(td)
tz

datetime.timezone(datetime.timedelta(days=-1, seconds=61200))

In [31]:
date_obj = date_obj.replace(tzinfo=tz)
print(date_obj)

2009-04-01 00:00:00-07:00


### Datum Suchen

Vorsicht: dies ist im Prinzip eine alphabetische Suche!

In [32]:
from datetime import datetime, timezone

query = {"publishedDate.$date": {"$gt": "2013-12-31T00:00:00.000-0000"}}
for item in book_collection.find(query):
    print(item["title"], item["publishedDate"]["$date"])


EJB 3 in Action, Second Edition 2014-04-07T00:00:00.000-0700
Ext JS in Action, Second Edition 2014-02-04T00:00:00.000-0800
CoffeeScript in Action 2014-05-09T00:00:00.000-0700
HTML5 in Action 2014-02-10T00:00:00.000-0800
Linked Data 2013-12-31T00:00:00.000-0800
Mule in Action, Second Edition 2014-02-20T00:00:00.000-0800
Play for Java 2014-03-14T00:00:00.000-0700
Learn Windows IIS in a Month of Lunches 2013-12-31T00:00:00.000-0800
Kanban in Action 2014-03-04T00:00:00.000-0800
Solr in Action 2014-03-25T00:00:00.000-0700
The Mikado Method 2014-03-05T00:00:00.000-0800
Gradle in Action 2014-02-18T00:00:00.000-0800
The Joy of Clojure, Second Edition 2014-05-29T00:00:00.000-0700
iOS 7 in Action 2014-04-03T00:00:00.000-0700
Ember.js in Action 2014-06-10T00:00:00.000-0700
Practical Data Science with R 2014-04-02T00:00:00.000-0700
Windows Phone 8 in Action 2013-12-31T00:00:00.000-0800
The Well-Grounded Rubyist, Second Edition 2014-06-24T00:00:00.000-0700
Learn SQL Server Administration in a Month

Besser wäre es Beim Erstellen der Datenbank ein richtiges Datumsobjekt zu verwenden und nicht eine Zeichenkette:

    book = {
        "title": "Date and Time",
        "author": "M. H. Second",
        "published": datetime.now(timezone.utc)
    }

    book_collection.insert_one(book)

### Doppelte Einträge finden

In [33]:
a = book_collection.aggregate([{"$group": {"_id": "$title", "count": {"$sum": 1}}}, {"$match": {"count": {"$gt": 1}}}])

for item in a:
    print(item)

{'_id': 'Jaguar Development with PowerBuilder 7', 'count': 2}
{'_id': 'Android in Practice', 'count': 2}
{'_id': 'SQL Server MVP Deep Dives', 'count': 3}


In [34]:
a = book_collection.aggregate([
        {"$group": 
            {"_id": "$title", "ID": {"$addToSet": "$_id"}, "count": {"$sum": 1}}}, 
            {"$match": {"count": {"$gt": 1}}}])

for item in a:
    print(item)

{'_id': 'Jaguar Development with PowerBuilder 7', 'ID': [ObjectId('645e9d4c94ea41b9d4c44506'), ObjectId('645e9d4c94ea41b9d4c44636')], 'count': 2}
{'_id': 'Android in Practice', 'ID': [ObjectId('645e9d4c94ea41b9d4c44566'), ObjectId('645e9d4c94ea41b9d4c44524')], 'count': 2}
{'_id': 'SQL Server MVP Deep Dives', 'ID': [ObjectId('645e9d4c94ea41b9d4c445a3'), ObjectId('645e9d4c94ea41b9d4c445a4'), ObjectId('645e9d4c94ea41b9d4c445a5')], 'count': 3}


### Nach Büchern mit mehr als 4 Autoren suchen

Der $expr-Operator ist ein Aggregationspipeline-Operator in MongoDB, der es ermöglicht, eine Abfrage zu erstellen, indem er eine oder mehrere Ausdrücke auswertet und das Ergebnis zurückgibt. Der Operator wird normalerweise in Aggregationspipeline-Operationen verwendet, um komplexe Abfragen zu erstellen.

In [35]:
query = {"$expr": {"$gt": [{"$size": "$authors"}, 4]}}

for item in book_collection.find(query):
    print(item["title"], len(item["authors"]))

Ajax in Practice 5
OSGi in Action 5
Portlets and Apache Portals 5
iOS 4 in Action 5
Groovy in Action, Second Edition 8
NHibernate in Action 5
Tuscany SCA in Action 5
Sass and Compass in Action 5
SQL Server MVP Deep Dives 8
SQL Server MVP Deep Dives 7
SQL Server MVP Deep Dives 7
Mahout in Action 5
ASP.NET MVC 2 in Action 6
ASP.NET MVC 4 in Action 6
EJB 3 in Action, Second Edition 5
SWT/JFace in Action 5
Java Applets and Channels Without Programming 6
Making Sense of Java 6
GWT in Action, Second Edition 5
JUnit in Action, Second Edition 5
Node.js in Action 5
SQL Server MVP Deep Dives, Volume 2 8
HTML5 in Action 5
PowerShell Deep Dives 5
Scalatra in Action 6
Programming for Musicians and Digital Artists 5
MongoDB in Action, Second Edition 6


### Nach Element in Liste suchen (Kategorien)

In [36]:
query = { "categories": { "$in": ["XML", "Python"] } }

for item in book_collection.find(query):
    print(item['title'])


Hello! Python
The Quick Python Book, Second Edition
Ajax in Action
Python and Tkinter Programming
The Quick Python Book
Explorer's Guide to the Semantic Web
wxPython in Action
Hello World!
XDoclet in Action
XML Programming with VB and ASP


In [37]:
query = { "categories": { "$in": ["Python"] } }

for item in book_collection.find(query):
    print(item['title'])

Hello! Python
The Quick Python Book, Second Edition
Python and Tkinter Programming
The Quick Python Book
wxPython in Action
Hello World!


Wenn nur genau die Kategorie vorkommen muss:

In [38]:
query = { "categories": { "$eq": ["Python"] } }

for item in book_collection.find(query):
    print(item['title'])

Hello! Python
The Quick Python Book, Second Edition
Python and Tkinter Programming
The Quick Python Book
wxPython in Action


Wenn genau diese Kategorien vorkommen müssen:

In [39]:
query = { "categories": { "$all": ["Java", "Software Engineering" ] } }

for item in book_collection.find(query):
    print(item['title'])

Mule in Action


Und noch zum Spass: Thumbnail anzeigen

In [40]:
from IPython.display import Image

query = { "categories": { "$eq": ["Python"] } }

for item in book_collection.find(query):
    print(item["title"] + ":")
    display(Image(url=item["thumbnailUrl"]))



Hello! Python:


The Quick Python Book, Second Edition:


Python and Tkinter Programming:


The Quick Python Book:


wxPython in Action:


## Indizes

MongoDB verwendet Indizes, um Abfragen effizienter und schneller zu machen. Ein Index ist eine Datenstruktur, die eine sortierte Liste von Schlüsseln und die zugehörigen Speicheradressen enthält. Indizes ermöglichen es MongoDB, schnell auf Datensätze zuzugreifen, die aufgrund von Abfragen benötigt werden.

Ohne Indizes müsste MongoDB bei jeder Abfrage alle Dokumente in der Collection durchsuchen, um das gewünschte Ergebnis zu finden. Das ist jedoch sehr ineffizient und kann bei großen Datenmengen sehr lange dauern. Mit Indizes kann MongoDB die Suchanfragen direkt auf den Index anwenden, um schnell die passenden Dokumente zu finden. Dadurch können Abfragen erheblich beschleunigt werden.

| Indextyp         | Beschreibung                                                                                                                                                                                            | Beispiel                                                                                             |
|------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------|
| 2dsphere         | Geospatialer Index für sphärische Flächen. Verwendet eine 2D-Kugel um Punkte auf der Erde zu repräsentieren und ermöglicht fortgeschrittene räumliche Abfragen.                                             | `collection.create_index([("location", "2dsphere")])`                                             |
| 2d               | Geospatialer Index für 2D-Flächen. Verwendet flache Kartesische Koordinaten um Punkte auf der Erde zu repräsentieren. Kann nicht für räumliche Abfragen verwendet werden.                                 | `collection.create_index([("location", "2d")])`                                                   |
| text             | Volltextsuchindex für Textinhalte in einem Feld. Kann nur auf Feldern vom Typ String oder Array von Strings erstellt werden.                                                                                | `collection.create_index([("description", "text")])`                                              |
| hash             | Hash-Index auf einem Feld oder einer Kombination von Feldern. Verwendet Hashing-Algorithmen um den Zugriff auf Daten zu beschleunigen.                                                                     | `collection.create_index([("name", "hash")])`                                                      |
| ascending / -1   | Aufsteigender Index (Sortierung) auf einem Feld oder einer Kombination von Feldern. Kann für sortierte Abfragen verwendet werden.                                                                                        | `collection.create_index([("age", 1)])`                                                            |
| descending / 1   | Absteigender Index (Sortierung) auf einem Feld oder einer Kombination von Feldern. Kann für sortierte Abfragen verwendet werden.                                                                                         | `collection.create_index([("name", -1)])`                                                          |
| hashed           | Hash-Index auf einem Feld oder einer Kombination von Feldern. Ähnlich wie der Hash-Index, aber unterstützt eindeutige Schlüssel.                                                                             | `collection.create_index([("username", "hashed")])`                                               |
| geohaystack      | Index für grosse räumliche Datenmengen. Verwendet eine grobe Rasterung um schnelle Abfragen von Punkten in einem bestimmten Bereich zu ermöglichen.                                                           | `collection.create_index([("location", "geoHaystack"), ("category", 1)])`                          |
| TTL / Time-To-Live| Index zur automatischen Löschung von Dokumenten nach einem bestimmten Zeitraum. Der Index enthält ein Ablaufdatum für jedes Dokument und MongoDB entfernt automatisch alle Dokumente, deren Ablaufdatum erreicht ist. | `collection.create_index([("createdAt", 1)], expireAfterSeconds=3600)`                            |

## Geospatial Queries - Räumliche Abfragen mit MongoDB

https://www.mongodb.com/docs/manual/geospatial-queries/#geospatial-geometry-and-earth-curvature

### Räumliche Indizes im Detail

| Index-Typ   | Beschreibung                                                                                                                                                         | Beispiel                                                                                                                                                                                             |
|-------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 2dsphere    | Verwendet einen sphärischen Raum, um geometrische Formen auf einer Kugeloberfläche zu speichern. Es können komplexe Abfragen durchgeführt werden, die auf den Raum bezogen sind.  | Eine Sammlung von Standorten mit ihren Koordinaten, um die nächstgelegenen Orte in einem bestimmten Umkreis zu finden:<br/> `db.places.createIndex({ location: "2dsphere" })` |
| 2d          | Verwendet einen zweidimensionalen Raum. Der 2D-Index in MongoDB ist speziell für geographische Koordinaten konzipiert und unterstützt nur solche Daten...         | Eine Sammlung von Adressen mit ihren Koordinaten, um die Adressen in der Nähe eines bestimmten Punktes zu finden:<br/> `db.addresses.createIndex({ location: "2d" })`                              |
| geohaystack | Verwendet ein hybrides System, das eine grobe Speicherung von Daten auf einer flachen Oberfläche mit einem anschliessenden Überlauf in einen 2dsphere-Index auf einer Kugeloberfläche kombiniert. Hier können beliebige kartesische Koordinaten verwendet werden. | Eine Sammlung von Standorten mit ihren Koordinaten und "bucket_size", um die nächstgelegenen Orte in einem bestimmten Umkreis zu finden:<br/> `db.places.createIndex({ location: "geoHaystack", bucketSize: 1 })` |


## Erstes Beispiel: 2dsphere

Wir verwenden die 3 KKWs in der Schweiz als ersten einfachen Datensatz. Die Daten liegen als GeoJSON im File "kkw_ch.json" vor.


In [1]:
import json

In [4]:
collection_kkw = db.kkw

NameError: name 'db' is not defined

In [3]:
if collection_kkw.count_documents({}) > 0:
    print("lösche bestehende collection")
    collection_kkw.drop()

NameError: name 'collection_kkw' is not defined

Einen `2dsphere`-Index anlegen (WGS84 Koordinaten)

In [44]:
collection_kkw.create_index([("geometry", "2dsphere")])

'geometry_2dsphere'

In [45]:
file = open("data/kkw_ch.geojson", encoding="utf-8")
data = json.load(file)
file.close()

In [46]:
data["features"][0]["properties"]["name"]

'Kernkraftwerk Beznau'

In [47]:
data["features"][0]["geometry"]

{'type': 'Point', 'coordinates': [8.22875, 47.559167]}

In [48]:
collection_kkw.insert_many(data["features"])

<pymongo.results.InsertManyResult at 0x1419fd51ac0>

Die Daten sind nun in der Datenbank, wir können normale queries machen:

In [49]:
for item in collection_kkw.find():
    print(item['properties']['name'])

Kernkraftwerk Beznau
Kernkraftwerk Gösgen
Kernkraftwerk Leibstadt


In [50]:
fhnw_muttenz = [7.641773719193827, 47.53496712405754]

query = {
   "geometry": {
      "$nearSphere": {
         "$geometry": {
            "type": "Point",
            "coordinates": fhnw_muttenz
         },
         "$maxDistance": 40000 # Umkreis 40km
      }
   }
}


for item in collection_kkw.find(query):
    print(item)


{'_id': ObjectId('645e9e1194ea41b9d4c44680'), 'type': 'Feature', 'properties': {'name': 'Kernkraftwerk Gösgen', 'operator': 'Kernkraftwerk Gösgen-Däniken AG', 'capacity': '970 MW'}, 'geometry': {'type': 'Point', 'coordinates': [7.988056, 47.371667]}}


### Übersicht Spatial Queries


| Query                                       | Beschreibung                                                          | Beispiel                                                                                                       |
|---------------------------------------------|-----------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------|
| `$near`                                     | Suche nach Dokumenten in der Nähe eines gegebenen Punkts              | `db.places.find({ location: { $near: [ -74, 40.74 ] } })`                                                     |
| `$geoWithin`                                | Suche nach Dokumenten innerhalb eines gegebenen geografischen Bereichs | `db.places.find({ location: { $geoWithin: { $centerSphere: [ [ -74, 40.74 ], 0.01 ] } } })`                    |
| `$geoIntersects`                            | Suche nach Dokumenten, die einen gegebenen geografischen Bereich schneiden | `db.places.find({ location: { $geoIntersects: { $geometry: { type: "Polygon", coordinates: [ [ [ 0, 0 ], [ 3, 6 ], [ 6, 1 ], [ 0, 0 ] ] ] } } } })` |
| `$nearSphere`                               | Suche nach Dokumenten in der Nähe eines gegebenen Punkts auf einer Kugeloberfläche | `db.places.find({ location: { $nearSphere: { $geometry: { type: "Point", coordinates: [ -73.97, 40.77 ] }, $maxDistance: 1000 } } })` |
| `$centerSphere`                             | Suche nach Dokumenten innerhalb eines Kreises auf einer Kugeloberfläche | `db.places.find({ location: { $geoWithin: { $centerSphere: [ [ -73.97, 40.77 ], 0.1 ] } } })`             |
| `$box`                                      | Suche nach Dokumenten innerhalb eines gegebenen rechteckigen Bereichs | `db.places.find({ location: { $geoWithin: { $box: [ [ -73.99, 40.73 ], [ -73.96, 40.78 ] ] } } })`          |
| `$polygon`                                  | Suche nach Dokumenten innerhalb eines gegebenen Polygonbereichs        | `db.places.find({ location: { $geoWithin: { $polygon: [ [ -73.99, 40.73 ], [ -73.96, 40.73 ], [ -73.96, 40.78 ], [ -73.99, 40.78 ] ] } } })` |


Um das ein wenig zu testen laden wir doch einen anderen Datensatz in die MongoDB Datenbank. Wir nehmen dazu den generalisierten Gemeindedatensatz vom Bundesamt für Statistik ( https://www.bfs.admin.ch/bfs/de/home/dienstleistungen/geostat/geodaten-bundesstatistik/administrative-grenzen/generalisierte-gemeindegrenzen.html )

Wir nehmen dazu

* Kantone (data/kantone/g2k23.shp)
* Gemeinden (data/gemeinden/g1g23.shp)

Um das möglichst einfach zu importieren verwenden wir **GeoPandas**. Wir konvertieren zu WGS84 und speichern als GeoJSON:

In [51]:
import geopandas as gpd
import json

# crs ist eigentlich optional, da es im .prj File definiert ist
kantone = gpd.read_file("data/kantone/g2k23.shp", crs="EPSG:2056")

In [52]:
kantone.head(3)

Unnamed: 0,KTNR,KTNAME,GRNR,AREA_HA,E_MIN,E_MAX,N_MIN,N_MAX,E_CNTR,N_CNTR,Z_MIN,Z_MAX,Z_AVG,Z_MED,geometry
0,1,Zürich,4,172894,2669245,2716900,1223896,1283343,2691800,1252000,330,1291,533,505,"POLYGON ((2692443.000 1281183.000, 2692994.000..."
1,2,Bern / Berne,2,595850,2556241,2677745,1130585,1243835,2614200,1185600,399,4271,1199,980,"MULTIPOLYGON (((2576367.000 1194932.000, 25759..."
2,3,Luzern,6,149352,2630128,2681764,1180568,1237691,2651000,1213100,399,2347,771,680,"POLYGON ((2662029.000 1237691.000, 2662264.000..."


Wir reduzieren die Properties ein wenig, um das genze übersichtliche zu halten

In [53]:
kantone = kantone[["KTNR", "KTNAME", "geometry"]]
kantone.head(2)

Unnamed: 0,KTNR,KTNAME,geometry
0,1,Zürich,"POLYGON ((2692443.000 1281183.000, 2692994.000..."
1,2,Bern / Berne,"MULTIPOLYGON (((2576367.000 1194932.000, 25759..."


Leider unterstützt MongoDB nur WGS84 im 2dsphere Index, also konvertieren wir nach WGS84:

In [54]:
kantone_wgs84 = kantone.to_crs("EPSG:4326")
kantone_wgs84.head(2)

Unnamed: 0,KTNR,KTNAME,geometry
0,1,Zürich,"POLYGON ((8.66961 47.67475, 8.67687 47.67182, ..."
1,2,Bern / Berne,"MULTIPOLYGON (((7.12845 46.90507, 7.12301 46.9..."


In [55]:
geoJSON = json.loads(kantone_wgs84.to_json())

In [56]:
geoJSON['features'][0]['properties']

{'KTNR': 1, 'KTNAME': 'Zürich'}

In [57]:
collection_kantone = db.kantone

In [58]:
collection_kantone.create_index([("geometry", "2dsphere")])

'geometry_2dsphere'

Kantone in MongoDB bringen:

In [59]:
collection_kantone.insert_many(geoJSON["features"])

<pymongo.results.InsertManyResult at 0x1419fc7f8b0>

In [60]:
fhnw_muttenz = [7.641773719193827, 47.53496712405754]

query = {
    'geometry': {
        '$geoIntersects': {
            '$geometry': {
                'type': 'Point',
                'coordinates': fhnw_muttenz
            }
        }
    }
}

for item in collection_kantone.find(query):
    print(item['properties'])
    #print(item['geometry'])

{'KTNR': 13, 'KTNAME': 'Basel-Landschaft'}


In [61]:
import geojson

# Ein Polygon definieren, welches einige Kantone enthält. Wir verwenden dazu das geojson Modul.
# Man könnte das GeoJSON natürlich auch manuell als Dictionary erstellen. Das geojson Modul
# ist für einige Anwendungen jedoch recht nützlich.
min_lon, min_lat = 7.0, 46.0
max_lon, max_lat = 9.0, 48.0
bbox = geojson.Polygon([[
    (min_lon, min_lat),
    (max_lon, min_lat),
    (max_lon, max_lat),
    (min_lon, max_lat),
    (min_lon, min_lat)
]])

print(bbox) # wir können das auch auf https://geojson.io/ ansehen...

{"coordinates": [[[7.0, 46.0], [9.0, 46.0], [9.0, 48.0], [7.0, 48.0], [7.0, 46.0]]], "type": "Polygon"}


In [62]:
query = {
    "geometry": {
        "$geoWithin": {
            "$geometry": bbox
        }
    }
}

for item in collection_kantone.find(query):
    print(item['properties'])

{'KTNR': 4, 'KTNAME': 'Uri'}
{'KTNR': 9, 'KTNAME': 'Zug'}
{'KTNR': 7, 'KTNAME': 'Nidwalden'}
{'KTNR': 3, 'KTNAME': 'Luzern'}
{'KTNR': 6, 'KTNAME': 'Obwalden'}
{'KTNR': 11, 'KTNAME': 'Solothurn'}
{'KTNR': 19, 'KTNAME': 'Aargau'}
{'KTNR': 1, 'KTNAME': 'Zürich'}
{'KTNR': 13, 'KTNAME': 'Basel-Landschaft'}
{'KTNR': 14, 'KTNAME': 'Schaffhausen'}
{'KTNR': 12, 'KTNAME': 'Basel-Stadt'}


In [63]:
query = {
    "geometry": {
        "$geoIntersects": {
            "$geometry": bbox
        }
    }
}

for item in collection_kantone.find(query):
    print(item['properties'])

{'KTNR': 21, 'KTNAME': 'Ticino'}
{'KTNR': 18, 'KTNAME': 'Graubünden / Grigioni / Grischun'}
{'KTNR': 4, 'KTNAME': 'Uri'}
{'KTNR': 8, 'KTNAME': 'Glarus'}
{'KTNR': 17, 'KTNAME': 'St. Gallen'}
{'KTNR': 5, 'KTNAME': 'Schwyz'}
{'KTNR': 9, 'KTNAME': 'Zug'}
{'KTNR': 7, 'KTNAME': 'Nidwalden'}
{'KTNR': 3, 'KTNAME': 'Luzern'}
{'KTNR': 6, 'KTNAME': 'Obwalden'}
{'KTNR': 2, 'KTNAME': 'Bern / Berne'}
{'KTNR': 23, 'KTNAME': 'Valais / Wallis'}
{'KTNR': 26, 'KTNAME': 'Jura'}
{'KTNR': 24, 'KTNAME': 'Neuchâtel'}
{'KTNR': 10, 'KTNAME': 'Fribourg / Freiburg'}
{'KTNR': 22, 'KTNAME': 'Vaud'}
{'KTNR': 11, 'KTNAME': 'Solothurn'}
{'KTNR': 19, 'KTNAME': 'Aargau'}
{'KTNR': 1, 'KTNAME': 'Zürich'}
{'KTNR': 13, 'KTNAME': 'Basel-Landschaft'}
{'KTNR': 14, 'KTNAME': 'Schaffhausen'}
{'KTNR': 12, 'KTNAME': 'Basel-Stadt'}
{'KTNR': 20, 'KTNAME': 'Thurgau'}


Abfrage mit centerSphere

In [64]:
fhnw_muttenz = [7.641773719193827, 47.53496712405754]

# Abfrage: Finde alle Polygone innerhalb eines 50 km Radius um das geografische Zentrum der Schweiz
query = {
    "geometry": {
        "$geoWithin": {
            "$centerSphere": [fhnw_muttenz, 50 / 6371] # Umkreis von 50 km in Radiant (1 Radiant = 6371 km)
        }
    }
}

for item in collection_kantone.find(query):
    print(item['properties'])


{'KTNR': 13, 'KTNAME': 'Basel-Landschaft'}
{'KTNR': 12, 'KTNAME': 'Basel-Stadt'}


Etwas einfacher ist die Abfrage der Intersektion im Umkreis von 50km:

In [65]:
query = {
    "geometry": {
        "$near": {
            "$geometry": {
                "type": "Point",
                "coordinates": fhnw_muttenz
            },
            "$maxDistance": 50 * 1000
        }
    }
}

for item in collection_kantone.find(query):
    print(item['properties'])

{'KTNR': 13, 'KTNAME': 'Basel-Landschaft'}
{'KTNR': 12, 'KTNAME': 'Basel-Stadt'}
{'KTNR': 11, 'KTNAME': 'Solothurn'}
{'KTNR': 19, 'KTNAME': 'Aargau'}
{'KTNR': 26, 'KTNAME': 'Jura'}
{'KTNR': 2, 'KTNAME': 'Bern / Berne'}
{'KTNR': 3, 'KTNAME': 'Luzern'}


### Abfragen mit mehreren Collections

dazu erstellen wir schnell noch eine Collection collection_gemeinden mit allen Gemeinden der Schweiz, analog zu Kantonen:

In [66]:
gemeinden = gpd.read_file("data/gemeinden/g1g23.shp")
gemeinden = gemeinden[["GMDNR", "GMDNAME", "KTNR", "geometry"]]
gemeinden_wgs84 = gemeinden.to_crs("EPSG:4326")
geoJSON = json.loads(gemeinden_wgs84.to_json())

collection_gemeinden = db.gemeinden
collection_gemeinden.create_index([("geometry", "2dsphere")])
collection_gemeinden.insert_many(geoJSON["features"])

<pymongo.results.InsertManyResult at 0x141a41c5f70>

In [67]:
result = collection_gemeinden.find()
print(result.next()['properties']['GMDNAME'])

Aeugst am Albis


In [68]:
fhnw_muttenz = [7.641773719193827, 47.53496712405754]

query = {
    "geometry": {
        "$near": {
            "$geometry": {
                "type": "Point",
                "coordinates": fhnw_muttenz
            },
            "$maxDistance": 3 * 1000 # 3 km
        }
    }
}

for item in collection_gemeinden.find(query):
    print(item['properties'])

{'GMDNR': 2770, 'GMDNAME': 'Muttenz', 'KTNR': 13}
{'GMDNR': 2766, 'GMDNAME': 'Birsfelden', 'KTNR': 13}
{'GMDNR': 2769, 'GMDNAME': 'Münchenstein', 'KTNR': 13}
{'GMDNR': 2701, 'GMDNAME': 'Basel', 'KTNR': 12}
{'GMDNR': 2831, 'GMDNAME': 'Pratteln', 'KTNR': 13}
{'GMDNR': 2703, 'GMDNAME': 'Riehen', 'KTNR': 12}


Alle Gemeinden innerhalb des Polygons des Kantons Basel-Landschaft suchen:

In [82]:
kanton_name = "Basel-Landschaft"

query_kanton = {
    "properties.KTNAME": kanton_name
}

kanton = collection_kantone.find_one(query_kanton)

if kanton:
    kanton_polygon = kanton["geometry"]
else:
    print(f"Fehler, kanton {kanton_name} nicht gefunden!!")

In [83]:
# Alle Gemeinden innerhalb des Kantons suchen:
query_gemeinden = {
    "geometry": {
        "$geoWithin": {
            "$geometry": kanton_polygon
        }
    }
}
gemeinden = collection_gemeinden.find(query_gemeinden)
for gemeinde in gemeinden:
    print(gemeinde["properties"]["GMDNAME"])

Langenbruck
Häfelfingen
Rünenberg
Eptingen
Waldenburg
Oberdorf (BL)
Bennwil
Diegten
Hölstein
Känerkinden
Buckten
Rümlingen
Gelterkinden
Tecknau
Wittinsburg
Diepflingen
Thürnen
Tenniken
Zunzgen
Sissach
Böckten
Itingen
Wintersingen
Nusshof
Rickenbach (BL)
Buus
Ormalingen
Rothenfluh
Anwil
Wenslingen
Kilchberg (BL)
Oltingen
Hersberg
Liestal
Füllinsdorf
Giebenach
Augst
Pratteln
Muttenz
Reinach (BL)
Binningen
Oberwil (BL)
Blauen
Dittingen
Röschenz
Liesberg
Zwingen
Wahlen
Grellingen
Nenzlingen
Pfeffingen
Ettingen
Ziefen
Seltisberg
Bubendorf
Lausen
Ramlinsburg
Lampenberg
Niederdorf
Arboldswil
Reigoldswil
Titterten
Lauwil
Liedertswil
