# Connect: verbinding met de database

In dit notebook introduceren we een eenvoudige database voor contactgegevens van personen.
Deze contactgegevens verschillen sterk van persoon tot persoon: daardoor zijn deze eenvoudiger in een MongoDB-document te beschrijven dan in een relationele database.

Als voorbeeld-inhoud van de database gebruiken we het bestand `adressen.json`. 
Dit voorbeeld geeft ook een goed inzicht in de grote verschillen tussen de contact-documenten.

MongoDB gebruikt een iets andere termoinologie dan relationele databases.
De overeenkomsten zijn *ongeveer*:

| SQL (relationele DB) | MongoDB    |
| :--:                 | :--:       |
| table                | collection |
| row (record)         | document   |

Een document komt (ongeveer) overeen met een JSON-object.
`pymongo` zet dit automatisch om in een Python dictionary (en omgekeerd).
Voor Python objecten, JSON objecten en MongoDB documenten geldt dat deze bijna ongelimiteerd complex kunnen zijn: een element van een object kan weer een object zijn, of een array - mogelijk van objecten, enz.
Dit is een belangrijk verschil met SQL records (rows): dit zijn "platte" objecten waarvan de velden elementaire datatypes zijn.

Als Jupyter Notebooks nieuw voor je zijn, ga dan eerst naar [Inleiding Jupyter](Inleiding-Jupyter.ipynb).

## imports

We gebruiken de volgende Python packages:

- `os` - voor interactie met het operating system
- `re` - reguliere expressies, o.a. voor wildcards (jokers) in zoekopdrachten
- `pandas`, `numpy` - voor het werken met tabellen
- `IPython.core.display` - voor het weergeven van resultaten

In [None]:
import os
import re
import pandas as pd
import numpy as np
from IPython.core.display import display, HTML

## Pymongo

pymongo is de "driver" voor MongoDB vanuit Python.
De documentatie hiervan vind je via: https://api.mongodb.com/python/current/
MongoDB en pymongo zijn hier al geïnstalleerd.

In [None]:
import pymongo
print('Mongo version', pymongo.__version__)

## Databasenaam

We leiden de naam van de database af van de naam van de gebruiker.
Hiermee voorkomen we dat de gebruikers van hetzelfde database-managament-systeem elkaar in de weg zitten.
De naam van de gebruiker krijgen we via de shell-opdracht `echo $USER`.

In [None]:
userline = !echo $USER
username = userline[0]
dbname = username + "-demodb"
dbname

## Verbinding met de database

De eerste stap is om verbinding te maken met MongoDB, en met de *demo*-database.
In dit geval hebben we geen speciale autorisatie nodig; in de praktijk is dat meestal wel nodig.
In deze database gebruikenn we voorlopig maar één collection: *contacts*

In [None]:
client = pymongo.MongoClient('localhost', 27017)
db = client[dbname]
collection = db.contacts

## Voorbeeld-data

We importeren de voorbeeld-data uit een tekstbestand in JSON-formaat.
Dit tekstformaat is geschikt voor het uitwisselen van *objecten*.
Voor allerlei programmeertalen bestaan er libraries om objecten in dit formaat in te lezen of weg te schrijven.

**Opdracht** bekijk het bestand `addressen.json`, met behulp van de opdracht `!cat adressen.json` in de onderstaande code-cel.
Geef een voorbeeld van de contactgegevens van een persoon in dit formaat, met telefoonnummer, adres, en email-adres.

**Opdracht** hoe zou je aan kunnen geven dat een persoon meerdere telefoonnummers heeft? 
(NB: dit is lastig; hier komen we later op terug.)

## Inlezen van de voorbeeld-data

Via de (shell)opdracht `mongoimport` importeren we de voorbeeld-data in de collection `contacts` van de database `demo`.
Als de opdracht gelukt is krijg je 0 als resultaat; een andere waarde geeft een foutcode aan.

*Opmerking* het bestand ``mongopath`` bevat het pad van de map waarin de opdracht ``mongoimport`` te vinden is. Dit pad moet aan de lokale installatie aangepast zijn.

In [None]:
mongopathfile = !cat mongopath
mongopath = mongopathfile[0]

collection.drop()
os.system(mongopath + 'mongoimport -d ' + dbname + ' -c contacts adressen.json')

## Query: alle elementen

De eenvoudigste zoekopdracht is om alle documenten in de collection te vinden.
Deze drukken we vervolgens af.

> We kunnen het resultaat ook als Python-lijst krijgen, maar de *cursor*-constructie is geschikter voor grote hoeveelheden documenten. Je kunt dan document voor document behandelen (wat we hier ook eigenlijk doen).

> Het `_id`-veld is de *key* van het document (record) in de collection.

In [None]:
cursor = collection.find()
for obj in cursor:
    print(obj['name'])
    print(obj)

## Vervolg

* [Find](Find.ipynb) - queries voor het terugzoeken van gegevens.