In [1]:
import json
import pandas as pd
from collections import Counter

We're starting with loading the data and seeing some basic dimensions and structure

In [2]:
# Loads the data and preprocesses a bit

with open("../../data/beta/seeds2.json") as fd:
    seeds = json.load(fd)

counter = Counter()
    
for seed in seeds:
    seed["disciplines_count"] = len(seed["disciplines"])
    seed["education_level_count"] = len(seed["education_level"])
    seed["education_level_taxon_count"] = len(seed["education_level_taxon"])
    counter.update(seed["keywords"])

df = pd.DataFrame(data=seeds)

In [3]:
print(seeds[0])

{'url': 'https://www.youtube.com/watch?v=21v9IYUcruI', 'title': 'Can big history reunify all our knowledge? ', 'language': 'en', 'keywords': ['Video', 'MOOC', 'Big History'], 'description': "Video about the question 'Can big history reunify all our knowledge?'", 'mime_type': None, 'copyright': 'cc-by-40', 'author': [], 'publisher_date': None, 'education_level': ['WO'], 'education_level_taxon': ['WO', 'WO - Bachelor'], 'disciplines': [], 'discipline_ids': [], 'disciplines_count': 0, 'education_level_count': 1, 'education_level_taxon_count': 2}


In [4]:
print(len(seeds))

2469


In [5]:
df.shape

(2469, 17)

Now we're going to display for a few filters how the values of those filters are distributed in the set.

In [6]:
cc_counts = df.groupby("copyright").size()
cc_counts / len(seeds) * 100

copyright
cc-by-30          10.976104
cc-by-40          12.515188
cc-by-nc-40        6.763872
cc-by-nc-nd-30     0.202511
cc-by-nc-nd-40    11.867153
cc-by-nc-sa-30     1.984609
cc-by-nc-sa-40     5.427299
cc-by-nd-30        0.040502
cc-by-nd-40        0.162009
cc-by-sa-30        4.657756
cc-by-sa-40        2.673147
no                 0.769542
yes               41.960308
dtype: float64

In [7]:
discipline_counts = df.groupby("disciplines_count").size()
discipline_counts / len(seeds) * 100

disciplines_count
0     80.234913
1     11.786148
2      2.430134
3      0.445525
4      0.364520
5      0.324018
6      0.283516
7      0.526529
8      0.324018
9      0.081004
10     0.040502
11     0.121507
12     0.081004
13     2.389631
14     0.162009
15     0.040502
16     0.202511
17     0.040502
23     0.040502
24     0.040502
46     0.040502
dtype: float64

In [8]:
basic_edu_level_counts = df.groupby("education_level_count").size()
basic_edu_level_counts / len(seeds) * 100

education_level_count
1    75.455650
2    13.325233
3     3.685703
4     7.128392
6     0.121507
7     0.283516
dtype: float64

In [9]:
taxon_edu_level_counts = df.groupby("education_level_taxon_count").size()
taxon_edu_level_counts / len(seeds) * 100

education_level_taxon_count
0       0.040502
1      23.086270
2      57.432159
3       1.944107
4       2.430134
5       5.508303
6       1.012556
8       0.850547
9       2.551640
10      0.243013
11      0.607533
12      0.040502
13      0.081004
14      0.405022
15      0.081004
16      0.202511
17      0.202511
19      0.121507
20      0.324018
21      0.040502
23      0.121507
24      0.081004
35      0.081004
37      0.162009
41      0.081004
43      0.040502
45      0.162009
46      0.526529
47      0.243013
48      0.243013
49      0.324018
53      0.040502
54      0.081004
60      0.243013
68      0.081004
72      0.081004
104     0.040502
105     0.081004
118     0.081004
dtype: float64

In [10]:
language_counts = df.groupby("language").size()
language_counts / len(seeds) * 100

language
de     0.040502
en    24.625354
nl    75.172134
dtype: float64

A simple wordcloud like table that shows which words occur how often in the keywords

In [11]:
counter.most_common()

[('Video', 351),
 ('Brede professionele basis', 315),
 ('#hbovpk', 229),
 ('MOOC', 201),
 ('Vakdidactisch bekwaam', 193),
 ('professionalisering', 140),
 ('Pedagogisch bekwaam', 122),
 ('Vakinhoudelijk bekwaam', 118),
 ('taal', 85),
 ('Geneesmiddel', 77),
 ('Exemplarische geneesmiddelenlijst', 77),
 ('rekenen', 77),
 ('differentiatie', 69),
 ('leerproces', 67),
 ('Practicum clip', 64),
 ('school en omgeving', 64),
 ('didactiek', 62),
 ('zorgverlener', 62),
 ('Instruction clip', 59),
 ('Nutrition', 59),
 ('Health', 57),
 ('passend onderwijs', 55),
 ('klinisch redeneren', 54),
 ('ict in het onderwijs', 52),
 ('schoolorganisatie', 50),
 ('motivatie', 50),
 ('vakoverstijgend', 49),
 ('#Saxion', 47),
 ('werkvormen', 46),
 ('activerend onderwijs', 46),
 ('pedagogisch klimaat', 44),
 ('digitale didactiek', 42),
 ('sociale vaardigheden', 42),
 ('docent', 40),
 ('leesonderwijs', 39),
 ('Interne geneeskunde', 38),
 ('competent', 38),
 ('ict bekwaam', 38),
 ('#avans', 38),
 ('cluster 3', 37),
 ('

Here we're going to check how many materials are in "themes"

In [14]:
# This definition gets borrowed from the portal
DISCIPLINE_ENTRIES = [
    dict(id='2adcec22-095d-4937-aed7-48788080460b', theme='Aarde en milieu',
         name='Aardwetenschappen'),
    dict(id='e683a77c-f926-4c00-8e9e-e609cb93fc85',
         theme='Onderwijs en Opvoeding', name='Andragologie'),
    dict(id='455d527a-bfd0-4460-919e-12e0478a54cf',
         theme='Taal en Communicatie', name='Arabische taal en cultuur'),
    dict(id='8e080031-93e9-4c07-b4dc-73d5d096a2fe',
         theme='Exact en informatica', name='Astronomie'),
    dict(id='92161d11-91ce-48e2-b79a-8aa2df8b7022',
         theme='Economie en Bedrijf', name='Bedrijfskunde'),
    dict(id='cba3253b-ca4b-4bd5-bbf5-2cc90d910e57', theme='Recht en Bestuur',
         name='Bestuurskunde'),
    dict(id='2b363227-8633-4652-ad57-c61f1efc02c8', theme='Aarde en milieu',
         name='Biologie'),
    dict(id='652bc6a3-d024-493f-9199-a08340cbb2b3', theme='Techniek',
         name='Bouwkunde'),
    dict(id='1f7aa29f-38d8-4dab-91db-3be52669951f',
         theme='Taal en Communicatie', name='Chinese taal en cultuur'),
    dict(id='94a7654d-c145-4b9c-aab3-7dc478534437', theme='Techniek',
         name='Civiele techniek'),
    dict(id='3629ac98-42b8-47db-acb2-e37327042857',
         theme='Taal en Communicatie', name='Communicatiewetenschap'),
    dict(id='4df72ecd-3928-4abb-b227-8abd451e4195',
         theme='Gedrag en Maatschappij', name='Culturele antropologie'),
    dict(id='24850a94-16c6-4b87-8dce-a8b9a6673e5d', theme='Aarde en milieu',
         name='population studies'),
    dict(id='3b12504f-5600-42b7-aaf3-2b9fd011c093', theme='Gezondheid',
         name='Diergeneeskunde'),
    dict(id='7f772375-6e8e-43fe-9b08-d7f3971d8cc9',
         theme='Taal en Communicatie',
         name='Documentaire informatievoorziening'),
    dict(id='81a1f605-db58-448d-a1dc-da682316c505',
         theme='Taal en Communicatie', name='Duitse taal en cultuur'),
    dict(id='4ba5583f-b147-42cc-a083-ce5ebfd53746',
         theme='Economie en Bedrijf', name='Economie'),
    dict(id='8cfb914a-ead0-4125-b389-d5d9816afb95', theme='Techniek',
         name='Elektrotechniek'),
    dict(id='18f53978-1118-4051-a778-b8d7f60ca982',
         theme='Taal en Communicatie', name='Engelse taal en cultuur'),
    dict(id='d35b903f-1598-4bdd-a2fa-8aba854df762', theme='Kunst en Cultuur',
         name='Filosofie'),
    dict(id='9f4710e3-f173-404e-b12e-577657a5da04',
         theme='Taal en Communicatie', name='Franse taal en cultuur'),
    dict(id='5c98610c-3f7d-4521-b231-d0932b4ca799', theme='Gezondheid',
         name='Geneeskunde'),
    dict(id='c001f86a-4f8f-4420-bd78-381c615ecedc', theme='Aarde en milieu',
         name='Geografie'),
    dict(id='ef3a0b2e-0843-4e0a-b45b-788be6e1ec8d', theme='Kunst en Cultuur',
         name='Geschiedenis'),
    dict(id='596e13b2-5626-4312-8440-50e9bd7b4271',
         theme='Taal en Communicatie',
         name='Griekse en Latijnse taal en cultuur'),
    dict(id='3ddfe1f4-c8d8-44c7-92d0-8c3c5d6e51f5',
         theme='Onderwijs en Opvoeding', name='Huishoudkunde'),
    dict(id='2845473d-ce18-450a-9135-6738abbdc129',
         theme='Exact en informatica', name='Informatica'),
    dict(id='aedcfc1c-a676-4f40-8587-4a5f43a354b5',
         theme='Taal en Communicatie', name='Italiaanse taal en cultuur'),
    dict(id='8e3e2aab-1e36-4942-b86a-eba155353b23', theme='Kunst en Cultuur',
         name='Kunstgeschiedenis'),
    dict(id='db5b20c4-4e94-4554-8137-a45acb130ad2', theme='Aarde en milieu',
         name='Landbouw'),
    dict(id='315566f5-ca2c-4fb2-bf82-263ec13c9b75', theme='Techniek',
         name='Materiaalkunde'),
    dict(id='20f264c8-a132-4b43-96dd-c661fd6bace7', theme='Aarde en milieu',
         name='Milieuwetenschappen'),
    dict(id='7aa6f577-b02d-484a-90d6-72fc80199f9a', theme='Kunst en Cultuur',
         name='Muziekwetenschap'),
    dict(id='e98be5ad-4bd2-4768-a9eb-7e24026e360c',
         theme='Exact en informatica', name='Natuurkunde'),
    dict(id='3401cf6e-82e4-404c-b216-b980ff407159',
         theme='Taal en Communicatie', name='Nederlandse taal en cultuur'),
    dict(id='0861c43d-1874-4788-b522-df8be575677f',
         theme='Onderwijs en Opvoeding', name='Onderwijskunde'),
    dict(id='03d65ce0-2fd7-4f16-91f1-dcdce873dffc', theme='Recht en Bestuur',
         name='Organisatiekunde'),
    dict(id='86390768-492e-4d9e-8bfe-65648e79522a',
         theme='Onderwijs en Opvoeding', name='Pedagogiek'),
    dict(id='b922af97-b3a5-48ac-a01d-32ad5cab5abc', theme='Recht en Bestuur',
         name='Politicologie'),
    dict(id='dabf3753-248a-495b-b861-bcd36e2b55cb',
         theme='Taal en Communicatie', name='Portugese taal en cultuur'),
    dict(id='c6c55e80-9fae-440b-b50a-4a1f70432734', theme='Techniek',
         name='Engineering'),
    dict(id='10169c87-c77a-4ab7-8c19-c79ba7865bbf',
         theme='Gedrag en Maatschappij', name='Psychologie'),
    dict(id='4449624e-dfcc-4414-958a-d770a168f637', theme='Recht en Bestuur',
         name='Recht'),
    dict(id='116fbfd6-77d8-4676-8634-8cfd686942c9',
         theme='Taal en Communicatie', name='Russische studies'),
    dict(id='3aab168a-9b24-4aca-b0f1-4bfb12e7c288',
         theme='Exact en informatica', name='Scheikunde'),
    dict(id='6cfbea61-4877-4518-9b06-9f07146e139d', theme='Aarde en milieu',
         name='Sociale geografie'),
    dict(id='e5346879-4051-4ad9-bef8-2078620ef6cf',
         theme='Gedrag en Maatschappij', name='Sociale wetenschappen'),
    dict(id='49b28e01-e836-408b-9cf2-2976f85312c7',
         theme='Gedrag en Maatschappij', name='Sociologie'),
    dict(id='952bf604-cc38-44e3-889a-a9e74a18da8e',
         theme='Taal en Communicatie', name='Spaanse taal en cultuur'),
    dict(id='b3f61346-92c4-4fb5-9207-6a4142b64122',
         theme='Taal en Communicatie', name='Taal- en literatuurwetenschap'),
    dict(id='b9a2c9ea-48f6-4218-b974-c14e84b00c1a', theme='Kunst en Cultuur',
         name='Theaterwetenschap'),
    dict(id='e605402f-4cc2-46bb-9026-d1d49bde17bf', theme='Kunst en Cultuur',
         name='Theologie'),
    dict(id='e6ca634f-c1aa-4d03-9e26-4725a31887f1', theme='Techniek',
         name='Verkeerskunde'),
    dict(id='9ca10565-ec88-44b7-abc2-582dfdea5abc', theme='Techniek',
         name='Vervoer en logistiek'),
    dict(id='4c8a3378-6616-459d-acc4-83ee5a9b91a2', theme='Kunst en Cultuur',
         name='Vormgeving'),
    dict(id='08018424-b218-4de6-b174-df6982e7a72d',
         theme='Economie en Bedrijf', name='Vrijetijdsmanagement'),
    dict(id='693f235a-511f-4f59-9633-6b1abd0e3b6f', theme='Techniek',
         name='Werktuigbouwkunde'),
    dict(id='7afbb7a6-c29b-425c-9c59-6f79c845f5f0',
         theme='Exact en informatica', name='Wiskunde'),
    dict(id='db5b20c4-4e94-4554-8137-a45acb130ad2', theme='Techniek',
         name='Agrotechnologie')
]

DISCIPLINE_CUSTOM_THEME = dict()

for d in DISCIPLINE_ENTRIES:
    discipline_id, theme = d["id"], d["theme"]
    DISCIPLINE_CUSTOM_THEME.setdefault(discipline_id, []).append(theme)

for seed in seeds:
    themes = []
    for discipline_id in seed["discipline_ids"]:
        themes += DISCIPLINE_CUSTOM_THEME.get(discipline_id, [])
    seed["themes"] = themes
    seed["themes_count"] = len(themes)

df = pd.DataFrame(data=seeds)    

In [15]:
themes_counts = df.groupby("themes_count").size()
themes_counts / len(seeds) * 100

themes_count
0     90.400972
1      4.576752
2      3.604698
3      0.405022
4      0.405022
5      0.364520
6      0.081004
8      0.040502
12     0.081004
19     0.040502
dtype: float64