# Datenbank installieren

Um die MongoDB zum laufen zu bringen muss man zunächst **mongodb** installieren. Am besten nimmt man die aktuelle version vom MongoDB repository, dazu folgendes im terminal eingeben:

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 0C49F3730359A14518585931BC711F9BA15703C6

echo "deb [ arch=amd64,arm64 ] http://repo.mongodb.org/apt/ubuntu xenial/mongodb-org/3.4 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.4.list

sudo apt-get update

sudo apt-get install -y mongodb-org

# Datenbank starten

Die datenbank wird über **mongod** gestartet. Wahrscheinlich muss man das mit sudo ausführen. 

Wenn **mongod** einfach so ausgeführt wird, dann landet die datenbank im Verzeichnis */data/db*, und wenn es nicht existiert dann beschwert sich der befehl.

Ein anderes Verzeichnis kann man über die option --dbpath < PATH > festlegen.


Um die runtergeladene Datei in der datenbank zu verwenden muss diese restored werden. Dazu muss man sie nicht selbst mit gzip entpacken.

mongorestore --gzip --archive=smartshark_test20170112.gz --db smartshark_test --host < HOST > --port < PORT > 

Danach sollte es funktionieren, bin aber bis jetzt noch nicht soweit gekommen, da das restore recht lange dauert.

*(Für Nils: Ich bezweifle, dass man die Datenbank aufm CIP-Pool zum laufen bringen kann, da man root-Rechte braucht, und die Datei am Ende ca. 11Gb groß ist (CIP-Rechner Speicher ist 3.5Gb) ) 

# Auf die Datenbank zugreifen

Mit Python kann man über die library **pymongo** auf eine MongoDB zugreifen. Einfach mit pip installieren.

Alles weitere steht unten beschrieben.


In [1]:
import pymongo
from pymongo import MongoClient

In [17]:
client = MongoClient('localhost',27017) 
#''' Die Zahl steht für den Port auf dem die Datenbank empfängt, der sollte immer 27017 sein, wenn man ihn ändern
#    will muss man mongod --port XXXXX zum starten der datenbank eingeben.
#'''

Hier sollten die Namen der in der mongod stehenden Datenbanken angezeigt werden. Einer davon sollte smartshark_test heißen. *Hinweis: wenn man versucht über client[ 'xxx' ] auf die Datenbank zuzugreifen, wird automatisch eine Datenbank 'xxx' angelegt. Wenn beim ersten aufrufen kein smartshark in den names steht, dann gibt es diese nicht in der mongod instance.*

In [3]:
print(client.database_names())

[u'local', u'smartshark_test']


Hier wird die datenbank als db aufgerufen

In [4]:
db = client['smartshark_test']

Hier werden alle Collections der Datenbank ausgegeben.

In [5]:
print(db.collection_names())

[u'vcs_system', u'issue_system', u'code_entity_state', u'code_group_state', u'event', u'file', u'issue', u'project', u'commit', u'issue_comment', u'tag', u'hunk', u'file_action', u'plugin_schema', u'people', u'mailing_list', u'message', u'clone_instance']


Collection people wird ausgewählt

In [6]:
people = db['people']

Einfache query funktionen

In [7]:
people.find_one()

{u'_id': ObjectId('5853f9f6bb982c643e11cc43'),
 u'email': u'zookeeper-user@hadoop.apache.org',
 u'name': u'zookeeper-user',
 u'username': u'zookeeper-user'}

In [15]:
import pprint
import datetime

In [9]:
commits = db['commit']

In [13]:
commits.find_one()

{u'_id': ObjectId('5853eb373ee1b95d618826ef'),
 u'author_date': datetime.datetime(2012, 9, 21, 23, 4, 23),
 u'author_date_offset': 0,
 u'author_id': ObjectId('5853eb373ee1b95d618826f0'),
 u'branches': [u'refs/remotes/origin/branch-3.3'],
 u'committer_date': datetime.datetime(2012, 9, 21, 23, 4, 23),
 u'committer_date_offset': 0,
 u'committer_id': ObjectId('5853eb373ee1b95d618826f0'),
 u'message': u'ZOOKEEPER-1376. zkServer.sh does not correctly check for $SERVER_JVMFLAGS (Skye W-M via henryr)\n\ngit-svn-id: https://svn.apache.org/repos/asf/zookeeper/branches/branch-3.3@1388719 13f79535-47bb-0310-9956-ffa450edef68\n',
 u'parents': [u'e4f791598a33d683e24a828ae173a41ca7f8ab68'],
 u'revision_hash': u'314a55237b3e6134eaa12818a195abe73a99ee79',
 u'vcs_system_id': ObjectId('5853eb4aa737aab0c0c42518')}

In [16]:
last_commit = commits.find_one({'committer_date':datetime.datetime(2012,9,21,23,4,23)})
pprint.pprint(last_commit)

{u'_id': ObjectId('5853eb373ee1b95d618826ef'),
 u'author_date': datetime.datetime(2012, 9, 21, 23, 4, 23),
 u'author_date_offset': 0,
 u'author_id': ObjectId('5853eb373ee1b95d618826f0'),
 u'branches': [u'refs/remotes/origin/branch-3.3'],
 u'committer_date': datetime.datetime(2012, 9, 21, 23, 4, 23),
 u'committer_date_offset': 0,
 u'committer_id': ObjectId('5853eb373ee1b95d618826f0'),
 u'message': u'ZOOKEEPER-1376. zkServer.sh does not correctly check for $SERVER_JVMFLAGS (Skye W-M via henryr)\n\ngit-svn-id: https://svn.apache.org/repos/asf/zookeeper/branches/branch-3.3@1388719 13f79535-47bb-0310-9956-ffa450edef68\n',
 u'parents': [u'e4f791598a33d683e24a828ae173a41ca7f8ab68'],
 u'revision_hash': u'314a55237b3e6134eaa12818a195abe73a99ee79',
 u'vcs_system_id': ObjectId('5853eb4aa737aab0c0c42518')}


In [11]:
people.count()

4585