### Example JSON file with descriptions about data sets.

To load a JSON file, we can use the [json](https://docs.python.org/3/library/json.html) module can parse this format from a string or file.

In [1]:
import json

In [2]:
!jq . ../about.json

[1;39m{
  [0m[34;1m"landesbuecherei_dessau"[0m[1;39m: [0m[1;39m{
    [0m[34;1m"title"[0m[1;39m: [0m[0;32m"Sebastian Brants 'Narrenschiff', lateinische Ausgabe, Basel 1498"[0m[1;39m,
    [0m[34;1m"about"[0m[1;39m: [0m[0;32m"\nSebastian Brants 'Narrenschiff' war ein Bestseller des ausgehenden 15.\nJahrhunderts. Die spätmittelalterliche Moralsatire erschien erstmals 1494 in\ndeutscher Sprache in Basel. Entscheidend für den Erfolg in ganz Europa war die\nlateinische Übersetzung 'Stultifera navis', die Sebastian Brant durch seinen\nSchüler Jakob Locher anfertigen ließ und die erstmals 1497 ebenfalls in Basel\nerschien. Erst diese Übersetzung war die Voraussetzung dafür, dass es\nÜbertragungen in andere europäische Sprachen gab. Im 'Narrenschiff' erzählt\nBrant von einer von 109 Narren unternommenen Schiffsreise in das Land\n'Narragonien'. Jeder Narr symbolisiert exemplarisch menschliches Fehlverhalten,\nso z.B. Habsucht, Zwietracht, Völlerei, Ehebruch, Jähzorn, Gewal

In [3]:
with open("../about.json") as handle:
    doc = json.load(handle)

In [4]:
doc.keys()

dict_keys(['landesbuecherei_dessau', 'DBpedia', 'ddb', 'dnb_portraits', 'dnb_1912', 'gotha', 'gleimhaus', 'vivat', 'hmt', 'amalia', 'historical_maps', 'abb', 'altenburg', 'mdv', 'posterstein', 'press', 'letters', 'sellow', 'shells', 'birds', 'xplora', 'flax', 'muka', 'bienert', 'walter', 'vogel', 'kork', 'wax', 'luise', 'speck', 'weise', 'fahrrad', 'staatarchiv', 'leupold', 'diederichs', 'leipzigdata', 'stammbuch', 'weinhold', 'bismarck', 'handschriften', 'gbv'])

Length and iteration over the key value pais:

In [5]:
len(doc.items())

41

In [6]:
for _, v in doc.items():
    print(v["title"])

Sebastian Brants 'Narrenschiff', lateinische Ausgabe, Basel 1498
DBpedia Dataset
API der DDB
Buchhändlerporträts
Buchstadt 1912
Fechtbuch von Hans Talhoffer
Herbarium in drei Bänden aus den Jahren 1729 bis 1731
Vivatbänder
Historische Studierendenunterlagen der HMT Leipzig aus den Jahren 1843-1893
Stammbücher der Herzogin Anna Amalia Bibliothek Weimar
Historische Kartensammlung
Andreas-Bach-Buch
Antike Keramik
LVB Fahrplandaten im GTFS-Format (ÖPNV)
Sammlung Welker
Druckmaschinensounds
Holzbuchstaben
Reisetagebücher und Exkursionsberichte von Friedrich Sellow
Muscheln und Schnecken des Museums für Naturkunde
Tierstimmen
MusiXplora
Flachsanbau und -verarbeitung
Muka-Statistik 1884
Sammlung Theodor Bienert
Einblicke: Hermann Walter und das Atelier Hermann Walter in der Fotosammlung des Stadtarchivs Leipzig
Fotothek Hermann Vogel-Sammlung
Modelle antiker Bauwerken aus Kork
Modellfrüchte aus Wachs
Meissner Porzellan
Figuren und Kleinplastiken chinesischer Specksteine
Briefe und Akten zur K

In [7]:
for _, v in doc.items():
    print(v["formats"])

['txt', 'tsv', 'xlsx', 'tiff']
['rdf']
['xml', 'json', 'edm']
['xml', 'tiff']
['xml']
['xml', 'tiff']
['xml', 'jpg']
['xml', 'json', 'jpeg']
['csv', 'jpeg']
['xls', 'xml']
['xml', 'tsv', 'jpeg', 'tiff']
['xml', 'csv', 'jpeg', 'pdf']
['xls', 'jpeg']
['gtfs']
['tiff']
['mp3', 'mp4']
['jpeg']
['csv', 'tiff', 'pdf']
['csv', 'jpeg']
['mp3', 'json']
['json']
['csv', 'jpeg']
['csv']
['xml', 'jpeg']
['csv', 'jpeg']
['xls', 'tiff']
['xml', 'jpeg']
['xml', 'jpeg']
['xml', 'jpeg']
['xml', 'jpeg']
['xml']
['xml', 'jpeg']
['csv']
['xml', 'jpeg']
['jpeg', 'png', 'tiff']
['turtle']
['xml', 'jpeg']
['xml', 'jpeg']
['xml', 'jpeg']
['tsv', 'json']
['xml', 'json']


List comprehensions are compact loops.

In [8]:
[v["formats"] for _, v in doc.items()]

[['txt', 'tsv', 'xlsx', 'tiff'],
 ['rdf'],
 ['xml', 'json', 'edm'],
 ['xml', 'tiff'],
 ['xml'],
 ['xml', 'tiff'],
 ['xml', 'jpg'],
 ['xml', 'json', 'jpeg'],
 ['csv', 'jpeg'],
 ['xls', 'xml'],
 ['xml', 'tsv', 'jpeg', 'tiff'],
 ['xml', 'csv', 'jpeg', 'pdf'],
 ['xls', 'jpeg'],
 ['gtfs'],
 ['tiff'],
 ['mp3', 'mp4'],
 ['jpeg'],
 ['csv', 'tiff', 'pdf'],
 ['csv', 'jpeg'],
 ['mp3', 'json'],
 ['json'],
 ['csv', 'jpeg'],
 ['csv'],
 ['xml', 'jpeg'],
 ['csv', 'jpeg'],
 ['xls', 'tiff'],
 ['xml', 'jpeg'],
 ['xml', 'jpeg'],
 ['xml', 'jpeg'],
 ['xml', 'jpeg'],
 ['xml'],
 ['xml', 'jpeg'],
 ['csv'],
 ['xml', 'jpeg'],
 ['jpeg', 'png', 'tiff'],
 ['turtle'],
 ['xml', 'jpeg'],
 ['xml', 'jpeg'],
 ['xml', 'jpeg'],
 ['tsv', 'json'],
 ['xml', 'json']]

Flatten a nested structure with itertools.

In [9]:
import itertools

In [10]:
list(itertools.chain(*[v["formats"] for _, v in doc.items()]))

['txt',
 'tsv',
 'xlsx',
 'tiff',
 'rdf',
 'xml',
 'json',
 'edm',
 'xml',
 'tiff',
 'xml',
 'xml',
 'tiff',
 'xml',
 'jpg',
 'xml',
 'json',
 'jpeg',
 'csv',
 'jpeg',
 'xls',
 'xml',
 'xml',
 'tsv',
 'jpeg',
 'tiff',
 'xml',
 'csv',
 'jpeg',
 'pdf',
 'xls',
 'jpeg',
 'gtfs',
 'tiff',
 'mp3',
 'mp4',
 'jpeg',
 'csv',
 'tiff',
 'pdf',
 'csv',
 'jpeg',
 'mp3',
 'json',
 'json',
 'csv',
 'jpeg',
 'csv',
 'xml',
 'jpeg',
 'csv',
 'jpeg',
 'xls',
 'tiff',
 'xml',
 'jpeg',
 'xml',
 'jpeg',
 'xml',
 'jpeg',
 'xml',
 'jpeg',
 'xml',
 'xml',
 'jpeg',
 'csv',
 'xml',
 'jpeg',
 'jpeg',
 'png',
 'tiff',
 'turtle',
 'xml',
 'jpeg',
 'xml',
 'jpeg',
 'xml',
 'jpeg',
 'tsv',
 'json',
 'xml',
 'json']

We want to count things. Frequency.

In [11]:
import collections

In [12]:
collections.Counter(itertools.chain(*[v["formats"] for _, v in doc.items()])).most_common()

[('xml', 21),
 ('jpeg', 20),
 ('tiff', 8),
 ('csv', 8),
 ('json', 6),
 ('tsv', 3),
 ('xls', 3),
 ('pdf', 2),
 ('mp3', 2),
 ('txt', 1),
 ('xlsx', 1),
 ('rdf', 1),
 ('edm', 1),
 ('jpg', 1),
 ('gtfs', 1),
 ('mp4', 1),
 ('png', 1),
 ('turtle', 1)]

### Another variation of this theme. Counting the vocabulary of data sets descriptions.

In [13]:
doc.keys()

dict_keys(['landesbuecherei_dessau', 'DBpedia', 'ddb', 'dnb_portraits', 'dnb_1912', 'gotha', 'gleimhaus', 'vivat', 'hmt', 'amalia', 'historical_maps', 'abb', 'altenburg', 'mdv', 'posterstein', 'press', 'letters', 'sellow', 'shells', 'birds', 'xplora', 'flax', 'muka', 'bienert', 'walter', 'vogel', 'kork', 'wax', 'luise', 'speck', 'weise', 'fahrrad', 'staatarchiv', 'leupold', 'diederichs', 'leipzigdata', 'stammbuch', 'weinhold', 'bismarck', 'handschriften', 'gbv'])

In [14]:
doc["letters"]["about"]

'\nDie Daten umfassen Scans von Holzbuchstaben, die zum Drucken von Plakaten\nverwendet wurden. Die Drucktechnik ist das Hochdruckverfahren, oben liegende\nBereiche drucken. Das System der beweglichen Letter geht auf Johannes Gutenberg\nzurück, der es im 15. Jh. entwickelte. Die Scans umfassen zwei Schriften, von\ndenen weder Name noch Erscheinungsjahr bekannt sind. (Diese Angaben sind bei\nHolzbuchstaben generell selten zu finden). Da es sich um ein direktes\nDruckverfahren handelt, ist der eigentliche Scan seitenverkehrt, der Datensatz\nenthält zusätzlich gespiegelte Daten, die sich für eine Verwendung in diesem\nProjekt evtl. besser eignen. Heute finden die Objekte vorwiegend im\nkünstlerischen Umfeld Anwendung.\n'

In [15]:
doc["letters"]["about"].split()

['Die',
 'Daten',
 'umfassen',
 'Scans',
 'von',
 'Holzbuchstaben,',
 'die',
 'zum',
 'Drucken',
 'von',
 'Plakaten',
 'verwendet',
 'wurden.',
 'Die',
 'Drucktechnik',
 'ist',
 'das',
 'Hochdruckverfahren,',
 'oben',
 'liegende',
 'Bereiche',
 'drucken.',
 'Das',
 'System',
 'der',
 'beweglichen',
 'Letter',
 'geht',
 'auf',
 'Johannes',
 'Gutenberg',
 'zurück,',
 'der',
 'es',
 'im',
 '15.',
 'Jh.',
 'entwickelte.',
 'Die',
 'Scans',
 'umfassen',
 'zwei',
 'Schriften,',
 'von',
 'denen',
 'weder',
 'Name',
 'noch',
 'Erscheinungsjahr',
 'bekannt',
 'sind.',
 '(Diese',
 'Angaben',
 'sind',
 'bei',
 'Holzbuchstaben',
 'generell',
 'selten',
 'zu',
 'finden).',
 'Da',
 'es',
 'sich',
 'um',
 'ein',
 'direktes',
 'Druckverfahren',
 'handelt,',
 'ist',
 'der',
 'eigentliche',
 'Scan',
 'seitenverkehrt,',
 'der',
 'Datensatz',
 'enthält',
 'zusätzlich',
 'gespiegelte',
 'Daten,',
 'die',
 'sich',
 'für',
 'eine',
 'Verwendung',
 'in',
 'diesem',
 'Projekt',
 'evtl.',
 'besser',
 'eignen.',

In [16]:
### Let's remove punctuation.

In [17]:
import re

In [18]:
re.sub("[\W]", "", "Anwendung.")

'Anwendung'

Again, a list comprehension can make code concise.

In [19]:
[re.sub("[\W]", "", token) for token in doc["letters"]["about"].split()]

['Die',
 'Daten',
 'umfassen',
 'Scans',
 'von',
 'Holzbuchstaben',
 'die',
 'zum',
 'Drucken',
 'von',
 'Plakaten',
 'verwendet',
 'wurden',
 'Die',
 'Drucktechnik',
 'ist',
 'das',
 'Hochdruckverfahren',
 'oben',
 'liegende',
 'Bereiche',
 'drucken',
 'Das',
 'System',
 'der',
 'beweglichen',
 'Letter',
 'geht',
 'auf',
 'Johannes',
 'Gutenberg',
 'zurück',
 'der',
 'es',
 'im',
 '15',
 'Jh',
 'entwickelte',
 'Die',
 'Scans',
 'umfassen',
 'zwei',
 'Schriften',
 'von',
 'denen',
 'weder',
 'Name',
 'noch',
 'Erscheinungsjahr',
 'bekannt',
 'sind',
 'Diese',
 'Angaben',
 'sind',
 'bei',
 'Holzbuchstaben',
 'generell',
 'selten',
 'zu',
 'finden',
 'Da',
 'es',
 'sich',
 'um',
 'ein',
 'direktes',
 'Druckverfahren',
 'handelt',
 'ist',
 'der',
 'eigentliche',
 'Scan',
 'seitenverkehrt',
 'der',
 'Datensatz',
 'enthält',
 'zusätzlich',
 'gespiegelte',
 'Daten',
 'die',
 'sich',
 'für',
 'eine',
 'Verwendung',
 'in',
 'diesem',
 'Projekt',
 'evtl',
 'besser',
 'eignen',
 'Heute',
 'finde

In [20]:
### Create a list of words for all data descriptions.

In [21]:
lol = [[re.sub("[\W]", "", token) for token in doc[k]["about"].split()] for k, v in doc.items()]

In [22]:
lol

[['Sebastian',
  'Brants',
  'Narrenschiff',
  'war',
  'ein',
  'Bestseller',
  'des',
  'ausgehenden',
  '15',
  'Jahrhunderts',
  'Die',
  'spätmittelalterliche',
  'Moralsatire',
  'erschien',
  'erstmals',
  '1494',
  'in',
  'deutscher',
  'Sprache',
  'in',
  'Basel',
  'Entscheidend',
  'für',
  'den',
  'Erfolg',
  'in',
  'ganz',
  'Europa',
  'war',
  'die',
  'lateinische',
  'Übersetzung',
  'Stultifera',
  'navis',
  'die',
  'Sebastian',
  'Brant',
  'durch',
  'seinen',
  'Schüler',
  'Jakob',
  'Locher',
  'anfertigen',
  'ließ',
  'und',
  'die',
  'erstmals',
  '1497',
  'ebenfalls',
  'in',
  'Basel',
  'erschien',
  'Erst',
  'diese',
  'Übersetzung',
  'war',
  'die',
  'Voraussetzung',
  'dafür',
  'dass',
  'es',
  'Übertragungen',
  'in',
  'andere',
  'europäische',
  'Sprachen',
  'gab',
  'Im',
  'Narrenschiff',
  'erzählt',
  'Brant',
  'von',
  'einer',
  'von',
  '109',
  'Narren',
  'unternommenen',
  'Schiffsreise',
  'in',
  'das',
  'Land',
  'Narrago

In [23]:
itertools.chain(*lol)

<itertools.chain at 0x102da05f8>

In [24]:
collections.Counter(itertools.chain(*lol)).most_common()

[('und', 203),
 ('der', 182),
 ('die', 133),
 ('in', 96),
 ('von', 77),
 ('Die', 72),
 ('des', 63),
 ('den', 55),
 ('zu', 51),
 ('mit', 50),
 ('sind', 48),
 ('im', 44),
 ('für', 43),
 ('eine', 43),
 ('als', 37),
 ('auch', 36),
 ('das', 34),
 ('aus', 34),
 ('dem', 33),
 ('ist', 31),
 ('sich', 30),
 ('ein', 28),
 ('wurden', 27),
 ('werden', 27),
 ('oder', 26),
 ('über', 24),
 ('auf', 24),
 ('Das', 21),
 ('Sammlung', 20),
 ('um', 20),
 ('Metadaten', 18),
 ('einer', 17),
 ('Leipzig', 17),
 ('', 17),
 ('wie', 17),
 ('wurde', 17),
 ('es', 16),
 ('Johann', 15),
 ('sowie', 14),
 ('vor', 14),
 ('nach', 14),
 ('bei', 14),
 ('war', 13),
 ('durch', 13),
 ('einen', 13),
 ('nicht', 13),
 ('bis', 13),
 ('In', 13),
 ('Sie', 13),
 ('Daten', 12),
 ('enthalten', 12),
 ('sie', 12),
 ('zum', 12),
 ('zur', 12),
 ('Bibliothek', 11),
 ('an', 11),
 ('Sammlungen', 11),
 ('Der', 11),
 ('Jahrhunderts', 10),
 ('diese', 10),
 ('aber', 10),
 ('umfasst', 10),
 ('Leipziger', 10),
 ('Jahr', 10),
 ('nur', 10),
 ('eines'

In [25]:
### Let use some stopword list from NLTK.

In [26]:
lol = [[re.sub("[\W]", "", token) for token in doc[k]["about"].split()] for k, v in doc.items()]

In [27]:
from nltk.corpus import stopwords

In [28]:
german_stopwords = set(stopwords.words('german'))

In [29]:
german_stopwords

{'aber',
 'alle',
 'allem',
 'allen',
 'aller',
 'alles',
 'als',
 'also',
 'am',
 'an',
 'ander',
 'andere',
 'anderem',
 'anderen',
 'anderer',
 'anderes',
 'anderm',
 'andern',
 'anderr',
 'anders',
 'auch',
 'auf',
 'aus',
 'bei',
 'bin',
 'bis',
 'bist',
 'da',
 'damit',
 'dann',
 'das',
 'dasselbe',
 'dazu',
 'daß',
 'dein',
 'deine',
 'deinem',
 'deinen',
 'deiner',
 'deines',
 'dem',
 'demselben',
 'den',
 'denn',
 'denselben',
 'der',
 'derer',
 'derselbe',
 'derselben',
 'des',
 'desselben',
 'dessen',
 'dich',
 'die',
 'dies',
 'diese',
 'dieselbe',
 'dieselben',
 'diesem',
 'diesen',
 'dieser',
 'dieses',
 'dir',
 'doch',
 'dort',
 'du',
 'durch',
 'ein',
 'eine',
 'einem',
 'einen',
 'einer',
 'eines',
 'einig',
 'einige',
 'einigem',
 'einigen',
 'einiger',
 'einiges',
 'einmal',
 'er',
 'es',
 'etwas',
 'euch',
 'euer',
 'eure',
 'eurem',
 'euren',
 'eurer',
 'eures',
 'für',
 'gegen',
 'gewesen',
 'hab',
 'habe',
 'haben',
 'hat',
 'hatte',
 'hatten',
 'hier',
 'hin',
 

In [30]:
len(german_stopwords)

231

In [31]:
lol = [[re.sub("[\W]", "", token).lower() for token in doc[k]["about"].split()] for k, v in doc.items()]

In [32]:
[word for word in itertools.chain(*lol) if word not in german_stopwords]

['sebastian',
 'brants',
 'narrenschiff',
 'bestseller',
 'ausgehenden',
 '15',
 'jahrhunderts',
 'spätmittelalterliche',
 'moralsatire',
 'erschien',
 'erstmals',
 '1494',
 'deutscher',
 'sprache',
 'basel',
 'entscheidend',
 'erfolg',
 'ganz',
 'europa',
 'lateinische',
 'übersetzung',
 'stultifera',
 'navis',
 'sebastian',
 'brant',
 'schüler',
 'jakob',
 'locher',
 'anfertigen',
 'ließ',
 'erstmals',
 '1497',
 'ebenfalls',
 'basel',
 'erschien',
 'erst',
 'übersetzung',
 'voraussetzung',
 'dafür',
 'dass',
 'übertragungen',
 'europäische',
 'sprachen',
 'gab',
 'narrenschiff',
 'erzählt',
 'brant',
 '109',
 'narren',
 'unternommenen',
 'schiffsreise',
 'land',
 'narragonien',
 'narr',
 'symbolisiert',
 'exemplarisch',
 'menschliches',
 'fehlverhalten',
 'zb',
 'habsucht',
 'zwietracht',
 'völlerei',
 'ehebruch',
 'jähzorn',
 'gewalt',
 'undankbarkeit',
 'selbstgefälligkeit',
 'kapitel',
 'enthält',
 'mottovers',
 'holzschnitt',
 'sowie',
 'spruchgedicht',
 'brant',
 'hält',
 'mitbü

In [33]:
collections.Counter([word for word in itertools.chain(*lol) if word not in german_stopwords]).most_common()

[('wurden', 27),
 ('sammlung', 20),
 ('metadaten', 18),
 ('leipzig', 17),
 ('', 17),
 ('wurde', 17),
 ('johann', 15),
 ('sowie', 14),
 ('deutschen', 14),
 ('daten', 12),
 ('enthalten', 12),
 ('bibliothek', 11),
 ('jahr', 11),
 ('sammlungen', 11),
 ('jahrhunderts', 10),
 ('umfasst', 10),
 ('leipziger', 10),
 ('informationen', 9),
 ('finden', 9),
 ('handelt', 9),
 ('heute', 9),
 ('zahlreiche', 9),
 ('ca', 8),
 ('jahrhundert', 8),
 ('bach', 8),
 ('ddb', 7),
 ('digitalen', 7),
 ('zeit', 7),
 ('gotha', 7),
 ('handschriften', 7),
 ('bestand', 7),
 ('18', 7),
 ('teil', 7),
 ('historischen', 7),
 ('zeichnungen', 7),
 ('dass', 6),
 ('digitalisate', 6),
 ('datensatz', 6),
 ('beim', 6),
 ('personen', 6),
 ('seit', 6),
 ('raum', 6),
 ('neben', 6),
 ('stammbücher', 6),
 ('herzogin', 6),
 ('große', 6),
 ('alten', 6),
 ('einzelnen', 6),
 ('grafiken', 6),
 ('bergakademie', 6),
 ('sebastian', 5),
 ('enthält', 5),
 ('ziel', 5),
 ('liegen', 5),
 ('datensätze', 5),
 ('bereits', 5),
 ('besteht', 5),
 ('der