In [49]:
import pymongo
from pymongo import MongoClient
from pprint import pprint, pformat, PrettyPrinter
from bson.son import SON
from os.path import exists
import json
from ipy_table import *

In [6]:
# Connect to database and create variables for the collections
client = MongoClient()
db = client.lobbyradar
entities = db.entities
relations = db.relations

# Print some statistics about our database dump
print("Collections in database: " + ", ".join(db.collection_names(include_system_collections=False)))
print("Entities: %s documents" % entities.count())
print("Relations: %s documents" % relations.count())

Collections in database: entities, relations
Entities: 26380 documents
Relations: 32137 documents


# The entities collection

Als erstes werfen wir einen Blick in das erste Dokument der Collection um eine Ahnung zu erhalten, womit wir es überhaupt zu tun haben. Die Dokumente in einer MongoDB werden im JSON-Format abgespeichert.
Interessant sind dabei vor allem die direkten Werte des Dokuments, sodass eine Tiefe von 2 erst einmal ausreicht um einen Überblick zu bekommen (Eine vollständige Auflistung des Dokumentenobjekts ist ....... einzusehen. ).

In [73]:
# Get a sample document to have a look at and print it
first_entity_document = entities.find_one()
pprint(first_entity_document, depth=2)

{u'_id': ObjectId('54bd3c748b934da06340f4c1'),
 u'aliases': [u'DIE LINKE',
              u'Die Linke',
              u'Partei DIE LINKE',
              u'DIE LINKE.',
              u'Linkspartei',
              u'Linkspartei.PDS',
              u'PDS',
              u'WASG',
              u'Partei des Demokratischen Sozialismus',
              u'Arbeit & soziale Gerechtigkeit \u2013 Die Wahlalternative',
              u'Wahlalternative',
              u'Wahlalternative Arbeit und soziale Gerechtigkeit'],
 u'created': datetime.datetime(2015, 1, 19, 17, 18, 44, 807000),
 u'data': [{...}, {...}],
 u'importer': u'parteien',
 u'name': u'Die Linke',
 u'search': [u'die linke',
             u'partei die linke',
             u'linkspartei',
             u'linksparteipds',
             u'pds',
             u'wasg',
             u'partei des demokratischen sozialismus',
             u'arbeit and soziale gerechtigkeit die wahlalternative',
             u'wahlalternative',
             u'wahlaltern

Die direkten Felder des Dokuments sind (abgesehen von der Id):
 _aliases, created, data, importer, name, search, slug, tags, type, updated_
 
 Zur anschließenden Analyse wurde das Tool __Variety__ verwendet (https://github.com/variety/variety). Es hilft dabei, die Daten und ihr Struktur zu verstehen und einen Überblick über sie zu bekommen.

In [71]:
# We need to find the tool variety before we can use it
VARIETY = "../variety/variety.js"
if not exists(VARIETY):
     print("variety.js script NICHT in %s gefunden. Ausversehen verschoben?" % VARIETY)
        
# Save database analysis as JSON for processing 
shell_capture = ! mongo --quiet lobbyradar --eval "var collection = 'entities', outputFormat='json'" {VARIETY}
variety_schema_json = shell_capture.n

# And print as ascii
! mongo --quiet lobbyradar --eval "var collection = 'entities', outputFormat='ascii'" {VARIETY}

+------------------------------------------------------------------------------------------------+
| key                      | types                        | occurrences | percents               |
| ------------------------ | ---------------------------- | ----------- | ---------------------- |
| _id                      | ObjectId                     |       26380 | 100.000000000000000000 |
| aliases                  | Array                        |       26380 | 100.000000000000000000 |
| created                  | Date                         |       26380 | 100.000000000000000000 |
| data                     | Array                        |       26380 | 100.000000000000000000 |
| importer                 | String,null                  |       26380 | 100.000000000000000000 |
| name                     | String                       |       26380 | 100.000000000000000000 |
| search                   | Array                        |       26380 | 100.000000000000000000 |


## Tags

Da Tags ein Array ist, muss es in der Pipeline zunächst in seine Elemente aufgeteilt werden.

In [108]:
# Aggregation, die das "tags"-Array der Dokumente zerlegt und für jeden Wert einen neuen Eintrag im Resultset erzeugt.
# Diese werden anschließend gruppiert, die Gruppengrößen gezählt und entsprechend sortiert
pipeline = [
    {"$unwind": "$tags"},
    {"$group": {"_id": "$tags", "count": {"$sum": 1}}},
    {"$sort": {"count": -1} }
]

distinct_tags_count = list(db.entities.aggregate(pipeline, cursor={}))
pprint(distinct_tags_count)
print("Total: %s distinct tags." % len(distinct_tags_count))

[{u'_id': u'lobbyismus', u'count': 16998},
 {u'_id': u'lobbyist', u'count': 14740},
 {u'_id': u'executive', u'count': 13095},
 {u'_id': u'parteispenden', u'count': 3164},
 {u'_id': u'lobbyorganisation', u'count': 2222},
 {u'_id': u'representative', u'count': 1915},
 {u'_id': u'nebeneinkuenfte', u'count': 1874},
 {u'_id': u'parteispenden13', u'count': 979},
 {u'_id': u'dax', u'count': 636},
 {u'_id': u'bundestag', u'count': 630},
 {u'_id': u'mdb', u'count': 629},
 {u'_id': u'aufsichtsrat', u'count': 433},
 {u'_id': u'laender', u'count': 340},
 {u'_id': u'landesregierung', u'count': 332},
 {u'_id': u'thinktank', u'count': 330},
 {u'_id': u'seitenwechsler', u'count': 288},
 {u'_id': u'vorstand', u'count': 188},
 {u'_id': u'politik', u'count': 162},
 {u'_id': u'verwaltung', u'count': 150},
 {u'_id': u'kabinette', u'count': 150},
 {u'_id': u'Bau', u'count': 149},
 {u'_id': u'Banken / Versicherungen', u'count': 135},
 {u'_id': u'Finanzen', u'count': 133},
 {u'_id': u'Verwaltung / Politik', u

## Type

In [110]:
# Aggregation mit Gruppierung der Dokumente nach Feld "type", zählen der Gruppen und aufsteigend danach sortieren
pipeline = [ 
    { "$group": {"_id": "$type", "count": {"$sum": 1}} },
    { "$sort": {"count":1} }
]

distinct_types_count = list(db.entities.aggregate(pipeline, cursor={}))
pprint(distinct_types_count)
print("Total: %s distinct types." % len(distinct_types_count))

[{u'_id': u'entity', u'count': 6552}, {u'_id': u'person', u'count': 19828}]
Total: 2 distinct types.


# Importer

In [113]:
# Aggregation mit Gruppierung der Dokumente nach Feld "importer", zählen der Gruppen und aufsteigend danach sortieren
pipeline = [ 
    { "$group": {"_id": "$importer", "count": {"$sum": 1}} },
    { "$sort": {"count": -1} }
]

distinct_importer_count = list(db.entities.aggregate(pipeline, cursor={}))
pprint(distinct_importer_count)
print("Total: %s distinct importer." % len(distinct_importer_count))

[{u'_id': u'lobbyliste', u'count': 16804},
 {u'_id': u'parteispenden', u'count': 2914},
 {u'_id': u'bundestag', u'count': 2046},
 {u'_id': u'pr', u'count': 1767},
 {u'_id': None, u'count': 1063},
 {u'_id': u'dax', u'count': 541},
 {u'_id': u'laender', u'count': 370},
 {u'_id': u'parteispenden13', u'count': 311},
 {u'_id': u'thinktanks', u'count': 309},
 {u'_id': u'seitenwechsler', u'count': 214},
 {u'_id': u'kabinette', u'count': 34},
 {u'_id': u'parteispenden14', u'count': 6},
 {u'_id': u'parteien', u'count': 1}]
Total: 13 distinct importer.


In [117]:
pprint(list(entities.find({ "name": "Angela Merkel" })))

[{u'_id': ObjectId('54c2a4b4fe6a42c82bbaafac'),
  u'aliases': [u'Dr. Angela Merkel', u'Angela Merkel'],
  u'created': datetime.datetime(2015, 1, 23, 19, 44, 50, 772000),
  u'data': [{u'auto': True,
             u'created': datetime.datetime(2015, 1, 30, 13, 16, 19, 123000),
             u'desc': u'Quelle',
             u'format': u'link',
             u'id': u'9dc681ff88ef78470f58dad0a22fde397147a9f46b416478d2fd87233fa728ab',
             u'key': u'source',
             u'updated': datetime.datetime(2015, 1, 30, 13, 16, 19, 123000),
             u'value': {u'remark': u'created by bundestag importer',
                        u'url': u'http://www.bundestag.de/bundestag/abgeordnete18/biografien/M/merkel_angela/258788'}},
            {u'auto': True,
             u'created': datetime.datetime(2015, 1, 30, 13, 16, 19, 123000),
             u'desc': u'Vornamen',
             u'format': u'string',
             u'id': u'dfdee4542498db7db194d7f76a2b7912d5de8efa322e97eb49c7bee72028fe7a',
        

## Data

# in compararion with                                                                                                                                                                          
print("Die Datenbank enthält %s Entitäten mit Tag Medien und %s Entitäten mit Tag lobbyismus" % (db.entities.find({'tags': "Medien"}).count(), db.entities.find({'tags': "lobbyismus"}).count()))

In [99]:
pprint(entities.find_one())

{u'_id': ObjectId('54bd3c748b934da06340f4c1'),
 u'aliases': [u'DIE LINKE',
              u'Die Linke',
              u'Partei DIE LINKE',
              u'DIE LINKE.',
              u'Linkspartei',
              u'Linkspartei.PDS',
              u'PDS',
              u'WASG',
              u'Partei des Demokratischen Sozialismus',
              u'Arbeit & soziale Gerechtigkeit \u2013 Die Wahlalternative',
              u'Wahlalternative',
              u'Wahlalternative Arbeit und soziale Gerechtigkeit'],
 u'created': datetime.datetime(2015, 1, 19, 17, 18, 44, 807000),
 u'data': [{u'auto': True,
            u'created': datetime.datetime(2015, 5, 28, 18, 11, 9, 657000),
            u'desc': u'Partei',
            u'format': u'string',
            u'id': u'2b1adb60a31d37cf9cc0fdccb75149456a425095c6bf5e77abac117ed1a69d0f',
            u'key': u'partei',
            u'updated': datetime.datetime(2015, 5, 28, 18, 11, 9, 657000),
            u'value': u'Die Linke'},
           {u'auto': True,