# Data validation
In this notebook we validate and provide some basic analysis on the data we work with.

There are 2-3 data stages.
- (Collections), poorly defined counts.
- Raw, poorly defined counts.
- Freeze, contains arrangements which can contain many documents.
- Elasticsearch, contains documents split up between languages.

The input to the raw stage is specific to each collection/repository and not really considered as a data stage in the pipeline.
In the raw stage all objects are mapped to a uniform format. We do not have direct access to these files currently.
In the freeze stage, the data has been enriched and filtered. 
In the elasticsearch stage, the data is split up and subsets are selected.

To see the effect of each stage we need to look at "document" counts for a few stages:
1. Collections - Raw ? ill-defined document type
1. Raw - Freeze ? ill-defined document type
1. Freeze - Elasticsearch

Secondly, we want to verify that all documents which we use for query ranking are in the ElasticSearch index.

## 1. Count the number of documents

In [118]:
import json
import pprint
import logging
import os
import pandas as pd
from collections import defaultdict, Counter
from elasticsearch import Elasticsearch

import util

# RAW_DATA_FOLDER = 'data/raw'
FREEZE_DATA_FOLDER = 'data/freeze_04/'
ES_INDEX_NAME = 'freeze4_no_filter'
# the elasticsearch data and queries are split into languages.
LANGUAGES = ['en', 'nl']

INDIECES = {lang: f'{ES_INDEX_NAME}-{lang}' for lang in LANGUAGES}
QUERY_FILES = {lang: f'queries/queries-{lang}.json' for lang in LANGUAGES}
logging.basicConfig(format='[%(asctime)-15s][%(levelname)-7s] %(message)s',
                        level=logging.INFO)

ES_CREDENTIALS = 'es-credentials.json'
es_client = util.get_es_client(ES_CREDENTIALS)
DOC_TYPE = '_doc'

[2019-03-14 14:42:20,189][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/_cat/health [status:200 request:0.048s]


In [2]:
# def read_raw_documents():
#     folder = RAW_DATA_FOLDER
#     yield from util.read_input_documents(folder)

In [4]:
# raw_docs = list(read_raw_documents())
# print(len(raw_docs))

In [5]:
def read_processed_documents():
    folder = FREEZE_DATA_FOLDER
    return util.read_raw_documents(folder)

In [16]:
processed_docs = list(read_processed_documents())
freeze_doc_count = len(processed_docs)
freeze_doc_count

5660

Now we have the number of documents in the freeze, let's verify that we have all of them in the Elasticsearch index.

In [22]:
def get_indices(es_client):
    return es_client.cat.indices(format="json", v=True)
indieces = get_indices(es_client)
es_doc_count = 0
for index in indieces:
    if index['index'] in INDIECES:
        print(index)
        es_doc_count += int(index['docs.count'])
es_doc_count

[2019-03-14 11:57:34,430][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/_cat/indices?format=json&v=true [status:200 request:0.050s]


{'health': 'green', 'status': 'open', 'index': 'freeze4_no_filter-en', 'uuid': 'qV3MEzgKT_iVakgBSlE4nA', 'pri': '1', 'rep': '0', 'docs.count': '1532', 'docs.deleted': '35', 'store.size': '9.9mb', 'pri.store.size': '9.9mb'}
{'health': 'green', 'status': 'open', 'index': 'freeze4_no_filter-nl', 'uuid': 'UeHlzvi1TqKFQW30tgpWMw', 'pri': '1', 'rep': '0', 'docs.count': '3971', 'docs.deleted': '122', 'store.size': '28.1mb', 'pri.store.size': '28.1mb'}


5503

There is a mismatch, let's check if it is because of duplicate ids.

In [32]:
non_duplicates = Counter(doc['id'] for doc in processed_docs)
len(non_duplicates)

5503

Number of duplicate ids

In [30]:
freeze_doc_count -  len(non_duplicates)

157

Let's take a look at these duplicates.

In [89]:
duplicates = list(filter(lambda x: x[1] > 1, non_duplicates.most_common()))
duplicate_ids = [ dup[0] for dup in duplicates]

# lets first fetch all the duplicates and store them
duplicate_docs = list()
for doc in processed_docs:
    if doc['id'] in duplicate_ids:
        duplicate_docs.append(doc)
print(len(duplicate_docs))
# now we want to do a basic equality check and ignore them if they are exactly equal
duplicate_docs_df = pd.DataFrame(duplicate_docs)
duplicate_docs_df.sort_values(by=['id'])
pd.set_option('display.max_colwidth', -1)  # or 199
duplicate_docs_df


258


Unnamed: 0,arrangement_collection_name,arrangement_keywords,id,language,mime_type,pipeline,text,title,url
0,stimuleringsregeling,"[Oefening, Progressies, Tussendominanten, Harmonie, Analyse popmuziek]",a0888960640571583a23c4f133131b81f6ece4c9,"{'metadata': None, 'from_text': 'en', 'from_title': 'nl'}",text/html; charset=utf-8,{'harvest': '5a499c4'},"\n\n \n\n\n\n\n \n\n\n\n\n \n \n \n Loading, please wait...\n\n \n \n \n \n \n \n \n \n \n\n\n\n\n\n\n",Progressies met tussendominanten (questbase),http://my.questbase.com/take.aspx?pin=7358-3200-8178
1,stimuleringsregeling,"[Theorie, MOOC, Bestuurskunde]",96f652fc920af5db3afee9753cf7eef27ecc52c3,"{'metadata': None, 'from_text': 'nl', 'from_title': 'nl'}",,{'harvest': '5a499c4'},En hoe.\nWelkom bij het drieluik van cijfers naar waarde.\nVandaag interview met de mark van twist mark van twist is hoogleraar bestuurskunde en toezichthouder bij een aantal grote organisaties en vandaag aan het hebben over het fenomeen publieke waarde maar vooral ook wat betekent meer aandacht voor publieke waarden nou.\nVoor hun management en het aansturen van organisaties in het toezichthouden op organisaties.\nNegenentwintig hartelijk dank voor de te dit interview kunt u vertellen waar de aandacht voor publieke waarden vandaan komt.\nNou als ik kijk en zie hoe dat op dit moment.\nVorm krijgt want nederland voortkomt uit het besef dat het nogal uitmaakt vanuit welke waar je denkt als je oordeelt bijvoorbeeld over beleid of over het bestuur omdat als je bijvoorbeeld denkt vanuit legitimiteit in wellicht een ander oordeel hebt over hetzelfde beleid dan als je denkt vanuit effectiviteit vinci.\nAls je deze nou transparantie kan dat een heel ander oordeel geven over dezelfde handelingen dan als je denkt over.\nEfficiency maar wat te doen.\nJa ik kan dat tegelijktijdig denken vanuit transparantie en legitimiteit of is daar een bepaalde volgorde in te in te ontdekken.\nDat gebeurt gelijktijdig alleen er zit spanning op hè dus het interessant is van publieke waarden dat een oordeel vanuit de ene waren wellicht een heel ander scoren geven een andere mening dan vanuit een andere waren.\nKunt u een praktijk en een voorbeeld van geven.\nNou denk even aan een universiteit een school of ziekenhuis.\nAls je daar van efficiency nadenkt bijvoorbeeld van een ziekenhuis te houden bijvoorbeeld over de bezetting.\nHet kan heel waardevol zijn om het bed goed bezet houden dat zeer efficient.\nMaar of het ook van waarde is voor patienten.\nDie bijvoorbeeld liever thuis zorgt hadden willen worden of die misschien vanuit een heel andere invalshoek kijken naar de kwaliteit van patiëntenzorg dan valt het oordeel heel anders uit hè dus wat je ziet is een spanning van waarde waarbij bijvoorbeeld vanuit de organisatie zelf geredeneerd een ander perspectief ontstaat er van uit.\nDe patiënt de client.\nDe student en dat leidt dan tot soms ook tot spanningen oordeelsvorming werd.\nOok in de jaren tachtig en negentig vooral new public management government like business ja heel korte samengevat ja gaan we dat verlaten is dat is dat passé.\nNa wat je ziet is niet zozeer dat dat verlaten wordt maar dat de rijkheid van oordeelsvorming wordt bevorderen dat hun meerdere waarden in bescherming worden genomen dus niet alleen effectiviteit en efficiency maar bijvoorbeeld ook het samenspel tussen partijen hè nog even naar de ik had het net over het ziekenhuis.\nDe bezetting van bedden of de effectiviteit van de operatie dat is een invalshoek maar kwaliteit van leven is een heel andere invalshoek die daar strijdig mee kan zijn wat je ziet bij het publieke waarde denken debat wat niemand ontstaan is.\nVoorbij het bedrijfsleven is dat je nadenkt over hoe de universiteit meer is dan een productiefabriek niet loma fabriek.\nHoe een een politieorganisatie meer kan hij dan een bouma uitschuift machine maar ook hoe zorginstellingen veel meer kan zijn dan allerlei maar in in organisaties die mensen beter maken lukt hè zoals je denk eens aan een verpleeghuis.\nDaar komen mensen binnen die elke dag gewend waren om een borrel drinken.\nMisschien een halfdronken that terechtkwamen.\nDie komen d'r verzorgingsinstellingen daar kan de waarde zijn wij de mensen efficient handelen dat betekent soms dat ze moeten inleveren op kwaliteit van leven die borrel niet kan niet meer vindt de zuster onverantwoord.\nNou dat is een manier van vanuit een bedrijfsmatig productieproces misschien wat minder voor de hand leert maar vanuit kwaliteit van leven dat je zegt van nou als iemand de doen dan is die borrel daar ook het moment dat je wint verpleeghuis terechtkomt.\nIs er sprake van een paradigma shift een heel andere manier van denken en of is het terugbrengen van balans en je zou zeggen met een beetje gezond verstand kan je dat ook kan je dat ook bedenken.\nWij hebben ik denk dat er sprake is eerder van het terugbrengen van de balans van een paradigmawisseling maar dat die balans ook wel echt hersteld.\nMoest worden maar dat is wat je ziet is in zo'n wat dan heet het management de nadruk zozeer lag op matig waren op effectiviteit en efficiency op productie prestaties.\nOp output meting dat de aandacht voor die andere waarden die ook van belang zijn zeer op de achtergrond is komen te staan.\nMaar wat je ziet in het wat heet dan value management als opvolging van het nieuwe management is dat er veel meer aandacht is voor waarden die gereduceerd wordt bijvoorbeeld ook tussen organisaties in het samenspel van organisaties werken in netwerken van organisaties meer samen doen.\nSamen maar ook dus het idee van dat wat de waarde is voor de één misschien geen waar is voor de ander een dokter kan er belang bij hebben ze veel maar te opereren.\nKan hè termen als die betaald wordt.\nBij productie als zijn fysici in effectiviteit eruit bestaat zo hoog mogelijk productie te realiseren terwijl het voor kwaliteit van leven misschien goed kan zijn om tegen iemand zeggen naar zijn kwamen het behandelen we gaan een andere weg in.\nJa en wie bepaalt uiteindelijk wat wat goed is en wat niet of waar die balans ligt is dat de de maatschappij is en dat is dat het netwerk of is dat uiteindelijk gene die.\nIk betaal nou dat is in de markt wel zo hè degene die betaalt bepaalt dat is in de publieke sector veel minder het geval sterker nog dan kan het heel verkeerd uitpakken als degene die betaalt bepaalt.\nDat kan leiden tot tot spanningen bedenken stelletje gevangenissen hebt.\nEn daar is hun kostenoverweging gevallenen dan kun je geld mee verdienen laat zo hard maar werken hè als gevangenisdirecteur is heerlijk weer productiemachines maar misschien wat minder goed verdreven gratie het minder goed voor onder de publieke belangen of je als uit noorwegen uit noorwegen herbezetting hoog te houden.\nNou het denken vanuit bezetting vanuit prestaties van inderdaad vanuit de kosten oriëntatie terwijl er ook meer aan de orde is dus inderdaad de veiligheid van de samenleving in het samenspel tussen partijen reïntegratie uiteindelijk die ook aan de orde is als mensen ontslagen worden uit de gevangenis maar misschien ook provincie dus voorkomen dat mensen in de gevangenis terechtkomen.\nIs het moeilijk om die omslag te maken van rendementsdenken na wel breder kijken naar de publieke waren moeilijk voor toezichthouders voor managers.\nHet is in die zin lastig dat op een gemeente rakelt geïnstitutionaliseerd en dat is dan zijn hebben inderdaad allerlei formats zijn ook allerlei toezicht kaders die afrekenen op bezet die afrekenen op prestaties en vooral leeg bed geen geld.\nVooral lege cel minder vergoeding en als dat eenmaal geïnstitutionaliseerd is in het pad afhankelijkheid is in vorm geven is het lastig om daarvan af te wijken heel wat betekent het minder geld dan betekent dat uiteindelijk misschien tekort op de begroting is het.\nVraagt veel ook in het hebben van de manier waarop we afrekenen manier waarop verantwoording vragen meneer op ons toezicht inrichten weer op het management aanspreken dus daar zit dat ze niet in makkelijker gezegd dan gedaan het vraagt ook wel wat.\nJa in de golf van de rol van de manager gaat ie gaat ie dan helemaal veranderen gaat die nog op rendement ja denkt wel eens kunnen naar de.\nHet is natuurlijk dat die verantwoordelijk is voor de leiding van de organisatie en dat wat hier aan de orde is een publieke waarden denkt is dat het belang van de organisatie in andere kan zijn aan het belang van de samenleving en wat je van het management vraagt eigenlijk is een brede denken dan alleen het belang van de eigen organisatie hè dus in die zin.\nVraagt het wel ook een heroverweging van die rol misschien ook van het interne toezicht bij de raad van commissarissen.\nOf de raad van toezicht die daar uiteindelijk ook meer vanuit maatschappelijk belang toeziet om ook andere belangen mee te wegen dan alleen rendement is belang van de instelling hè heel praktisch.\nStel dat je op elk universiteiten bedrijfskunde opleiding zou beginnen dan zal het goed zijn voor de studenten aanwas.\nMaar uiteindelijk overspoelt de samenleving dan wellicht met bedrijfsplan studenten terwijl er ook.\nAndere studies zijn gevraagd het belang van de instelling en het belang van de samenleving dat die niet vanzelf geluid en die afweging die moet daarin gemaakt worden dat is de kern.\nVan de overgang van het nieuwe management management in de zin van de organisatie belang na haar publieke waarden denken waar uiteindelijk ook de samenleving veel prominente rol moet krijgen.\nOké er ziet u daar in het bedrijfsleven ook een ook een tendens dat het dat het bedrijfsleven ja toch meer naar maatschappelijke behoefte gaat kijken.\nZeker zeker zetten ook hebben we het fenomeen sociaal ondernemerschap.\nMaatschappelijk verantwoord ondernemen het idee dat je sociale doelen verbindt uiteindelijk ook met met productie doel is en dat dat niet alleen aan overheid is.\nOm maatschappelijke doelen te realiseren maar dat ook bedrijven daaraan kunnen bijdragen dat mensen met een een afstand tot de arbeidsmarkt.\nArbeidsgehandicapten autist bijvoorbeeld die nu in het bedrijfsleven worden benut om computersystemen te testen hè dus vanuit de gedachte dat die mensen ook productief te maken zijn en uiteindelijk ook heel goed te benutten zijn.\nOm in de samenleving ook omzet te maken wat je ziet is dat dat niet alleen de swd maar die mensen gingen naar de sociale werkvoorziening om daar dingen te doen die misschien van minder nut waren voor de samenleving zelf mevrouw bezigheidstherapie en dat je langzaam ziet dat dat.\nOvergaat naar een punt duitse vraag kunnen we die mensen ook effectief inzetten.\nIs het begrip publieke waarden kunnen waren niet meer claimen als bestuurskundige zeker ook het bedrijfsleven kan ook kan ook die die term omarmen of doet dat doen ze al haar hartelijk dank voor het interview over publieke waren erg verhelderend.\nWat mij betreft twee conclusies te trekker zorgt voor balans is niet alleen het afrekenen zorgen voor rendement en efficiency maar houdt alle het landsbelang in de belangen van partners in het werkveld in de gaten en punt twee.\nWat mij betreft is het gaat niet alleen over de overheid maar zeker ook het bedrijfsleven.\nDie een zware rol vervult een nog zwaardere rol gaat spelen in de toekomst als het gaat om het waarborgen dienen van het publieke belangen en de publieke waarde.,Basics en classics: Maarten Hoekstra | College 5.3 Challenging government,https://www.youtube.com/watch?v=isSJn17BEbc
2,stimuleringsregeling,"[Oefening, Progressies, Vertragingsakkoorden, Harmonie, Aanlyse popmuziek]",a0888960640571583a23c4f133131b81f6ece4c9,"{'metadata': None, 'from_text': 'en', 'from_title': 'nl'}",text/html; charset=utf-8,{'harvest': '5a499c4'},"\n\n \n\n\n\n\n \n\n\n\n\n \n \n \n Loading, please wait...\n\n \n \n \n \n \n \n \n \n \n\n\n\n\n\n\n",Progressies met II6 en vertragingsakkoorden voor V,http://my.questbase.com/take.aspx?pin=7358-3200-8178
3,stimuleringsregeling,"[Interview, MOOC, Bestuurskunde]",96f652fc920af5db3afee9753cf7eef27ecc52c3,"{'metadata': None, 'from_text': 'nl', 'from_title': 'nl'}",,{'harvest': '5a499c4'},En hoe.\nWelkom bij het drieluik van cijfers naar waarde.\nVandaag interview met de mark van twist mark van twist is hoogleraar bestuurskunde en toezichthouder bij een aantal grote organisaties en vandaag aan het hebben over het fenomeen publieke waarde maar vooral ook wat betekent meer aandacht voor publieke waarden nou.\nVoor hun management en het aansturen van organisaties in het toezichthouden op organisaties.\nNegenentwintig hartelijk dank voor de te dit interview kunt u vertellen waar de aandacht voor publieke waarden vandaan komt.\nNou als ik kijk en zie hoe dat op dit moment.\nVorm krijgt want nederland voortkomt uit het besef dat het nogal uitmaakt vanuit welke waar je denkt als je oordeelt bijvoorbeeld over beleid of over het bestuur omdat als je bijvoorbeeld denkt vanuit legitimiteit in wellicht een ander oordeel hebt over hetzelfde beleid dan als je denkt vanuit effectiviteit vinci.\nAls je deze nou transparantie kan dat een heel ander oordeel geven over dezelfde handelingen dan als je denkt over.\nEfficiency maar wat te doen.\nJa ik kan dat tegelijktijdig denken vanuit transparantie en legitimiteit of is daar een bepaalde volgorde in te in te ontdekken.\nDat gebeurt gelijktijdig alleen er zit spanning op hè dus het interessant is van publieke waarden dat een oordeel vanuit de ene waren wellicht een heel ander scoren geven een andere mening dan vanuit een andere waren.\nKunt u een praktijk en een voorbeeld van geven.\nNou denk even aan een universiteit een school of ziekenhuis.\nAls je daar van efficiency nadenkt bijvoorbeeld van een ziekenhuis te houden bijvoorbeeld over de bezetting.\nHet kan heel waardevol zijn om het bed goed bezet houden dat zeer efficient.\nMaar of het ook van waarde is voor patienten.\nDie bijvoorbeeld liever thuis zorgt hadden willen worden of die misschien vanuit een heel andere invalshoek kijken naar de kwaliteit van patiëntenzorg dan valt het oordeel heel anders uit hè dus wat je ziet is een spanning van waarde waarbij bijvoorbeeld vanuit de organisatie zelf geredeneerd een ander perspectief ontstaat er van uit.\nDe patiënt de client.\nDe student en dat leidt dan tot soms ook tot spanningen oordeelsvorming werd.\nOok in de jaren tachtig en negentig vooral new public management government like business ja heel korte samengevat ja gaan we dat verlaten is dat is dat passé.\nNa wat je ziet is niet zozeer dat dat verlaten wordt maar dat de rijkheid van oordeelsvorming wordt bevorderen dat hun meerdere waarden in bescherming worden genomen dus niet alleen effectiviteit en efficiency maar bijvoorbeeld ook het samenspel tussen partijen hè nog even naar de ik had het net over het ziekenhuis.\nDe bezetting van bedden of de effectiviteit van de operatie dat is een invalshoek maar kwaliteit van leven is een heel andere invalshoek die daar strijdig mee kan zijn wat je ziet bij het publieke waarde denken debat wat niemand ontstaan is.\nVoorbij het bedrijfsleven is dat je nadenkt over hoe de universiteit meer is dan een productiefabriek niet loma fabriek.\nHoe een een politieorganisatie meer kan hij dan een bouma uitschuift machine maar ook hoe zorginstellingen veel meer kan zijn dan allerlei maar in in organisaties die mensen beter maken lukt hè zoals je denk eens aan een verpleeghuis.\nDaar komen mensen binnen die elke dag gewend waren om een borrel drinken.\nMisschien een halfdronken that terechtkwamen.\nDie komen d'r verzorgingsinstellingen daar kan de waarde zijn wij de mensen efficient handelen dat betekent soms dat ze moeten inleveren op kwaliteit van leven die borrel niet kan niet meer vindt de zuster onverantwoord.\nNou dat is een manier van vanuit een bedrijfsmatig productieproces misschien wat minder voor de hand leert maar vanuit kwaliteit van leven dat je zegt van nou als iemand de doen dan is die borrel daar ook het moment dat je wint verpleeghuis terechtkomt.\nIs er sprake van een paradigma shift een heel andere manier van denken en of is het terugbrengen van balans en je zou zeggen met een beetje gezond verstand kan je dat ook kan je dat ook bedenken.\nWij hebben ik denk dat er sprake is eerder van het terugbrengen van de balans van een paradigmawisseling maar dat die balans ook wel echt hersteld.\nMoest worden maar dat is wat je ziet is in zo'n wat dan heet het management de nadruk zozeer lag op matig waren op effectiviteit en efficiency op productie prestaties.\nOp output meting dat de aandacht voor die andere waarden die ook van belang zijn zeer op de achtergrond is komen te staan.\nMaar wat je ziet in het wat heet dan value management als opvolging van het nieuwe management is dat er veel meer aandacht is voor waarden die gereduceerd wordt bijvoorbeeld ook tussen organisaties in het samenspel van organisaties werken in netwerken van organisaties meer samen doen.\nSamen maar ook dus het idee van dat wat de waarde is voor de één misschien geen waar is voor de ander een dokter kan er belang bij hebben ze veel maar te opereren.\nKan hè termen als die betaald wordt.\nBij productie als zijn fysici in effectiviteit eruit bestaat zo hoog mogelijk productie te realiseren terwijl het voor kwaliteit van leven misschien goed kan zijn om tegen iemand zeggen naar zijn kwamen het behandelen we gaan een andere weg in.\nJa en wie bepaalt uiteindelijk wat wat goed is en wat niet of waar die balans ligt is dat de de maatschappij is en dat is dat het netwerk of is dat uiteindelijk gene die.\nIk betaal nou dat is in de markt wel zo hè degene die betaalt bepaalt dat is in de publieke sector veel minder het geval sterker nog dan kan het heel verkeerd uitpakken als degene die betaalt bepaalt.\nDat kan leiden tot tot spanningen bedenken stelletje gevangenissen hebt.\nEn daar is hun kostenoverweging gevallenen dan kun je geld mee verdienen laat zo hard maar werken hè als gevangenisdirecteur is heerlijk weer productiemachines maar misschien wat minder goed verdreven gratie het minder goed voor onder de publieke belangen of je als uit noorwegen uit noorwegen herbezetting hoog te houden.\nNou het denken vanuit bezetting vanuit prestaties van inderdaad vanuit de kosten oriëntatie terwijl er ook meer aan de orde is dus inderdaad de veiligheid van de samenleving in het samenspel tussen partijen reïntegratie uiteindelijk die ook aan de orde is als mensen ontslagen worden uit de gevangenis maar misschien ook provincie dus voorkomen dat mensen in de gevangenis terechtkomen.\nIs het moeilijk om die omslag te maken van rendementsdenken na wel breder kijken naar de publieke waren moeilijk voor toezichthouders voor managers.\nHet is in die zin lastig dat op een gemeente rakelt geïnstitutionaliseerd en dat is dan zijn hebben inderdaad allerlei formats zijn ook allerlei toezicht kaders die afrekenen op bezet die afrekenen op prestaties en vooral leeg bed geen geld.\nVooral lege cel minder vergoeding en als dat eenmaal geïnstitutionaliseerd is in het pad afhankelijkheid is in vorm geven is het lastig om daarvan af te wijken heel wat betekent het minder geld dan betekent dat uiteindelijk misschien tekort op de begroting is het.\nVraagt veel ook in het hebben van de manier waarop we afrekenen manier waarop verantwoording vragen meneer op ons toezicht inrichten weer op het management aanspreken dus daar zit dat ze niet in makkelijker gezegd dan gedaan het vraagt ook wel wat.\nJa in de golf van de rol van de manager gaat ie gaat ie dan helemaal veranderen gaat die nog op rendement ja denkt wel eens kunnen naar de.\nHet is natuurlijk dat die verantwoordelijk is voor de leiding van de organisatie en dat wat hier aan de orde is een publieke waarden denkt is dat het belang van de organisatie in andere kan zijn aan het belang van de samenleving en wat je van het management vraagt eigenlijk is een brede denken dan alleen het belang van de eigen organisatie hè dus in die zin.\nVraagt het wel ook een heroverweging van die rol misschien ook van het interne toezicht bij de raad van commissarissen.\nOf de raad van toezicht die daar uiteindelijk ook meer vanuit maatschappelijk belang toeziet om ook andere belangen mee te wegen dan alleen rendement is belang van de instelling hè heel praktisch.\nStel dat je op elk universiteiten bedrijfskunde opleiding zou beginnen dan zal het goed zijn voor de studenten aanwas.\nMaar uiteindelijk overspoelt de samenleving dan wellicht met bedrijfsplan studenten terwijl er ook.\nAndere studies zijn gevraagd het belang van de instelling en het belang van de samenleving dat die niet vanzelf geluid en die afweging die moet daarin gemaakt worden dat is de kern.\nVan de overgang van het nieuwe management management in de zin van de organisatie belang na haar publieke waarden denken waar uiteindelijk ook de samenleving veel prominente rol moet krijgen.\nOké er ziet u daar in het bedrijfsleven ook een ook een tendens dat het dat het bedrijfsleven ja toch meer naar maatschappelijke behoefte gaat kijken.\nZeker zeker zetten ook hebben we het fenomeen sociaal ondernemerschap.\nMaatschappelijk verantwoord ondernemen het idee dat je sociale doelen verbindt uiteindelijk ook met met productie doel is en dat dat niet alleen aan overheid is.\nOm maatschappelijke doelen te realiseren maar dat ook bedrijven daaraan kunnen bijdragen dat mensen met een een afstand tot de arbeidsmarkt.\nArbeidsgehandicapten autist bijvoorbeeld die nu in het bedrijfsleven worden benut om computersystemen te testen hè dus vanuit de gedachte dat die mensen ook productief te maken zijn en uiteindelijk ook heel goed te benutten zijn.\nOm in de samenleving ook omzet te maken wat je ziet is dat dat niet alleen de swd maar die mensen gingen naar de sociale werkvoorziening om daar dingen te doen die misschien van minder nut waren voor de samenleving zelf mevrouw bezigheidstherapie en dat je langzaam ziet dat dat.\nOvergaat naar een punt duitse vraag kunnen we die mensen ook effectief inzetten.\nIs het begrip publieke waarden kunnen waren niet meer claimen als bestuurskundige zeker ook het bedrijfsleven kan ook kan ook die die term omarmen of doet dat doen ze al haar hartelijk dank voor het interview over publieke waren erg verhelderend.\nWat mij betreft twee conclusies te trekker zorgt voor balans is niet alleen het afrekenen zorgen voor rendement en efficiency maar houdt alle het landsbelang in de belangen van partners in het werkveld in de gaten en punt twee.\nWat mij betreft is het gaat niet alleen over de overheid maar zeker ook het bedrijfsleven.\nDie een zware rol vervult een nog zwaardere rol gaat spelen in de toekomst als het gaat om het waarborgen dienen van het publieke belangen en de publieke waarde.,Interview: Mark van Twist | 5.2 Challenging government,https://www.youtube.com/watch?v=isSJn17BEbc
4,hbovpk,"[#hbovpk, communicator, gezondheidsbevorderaar, organisator, professional en kwaliteitsbevorderaar, reflectieve ebp-professional, samenwerkingspartner, zorgverlener]",e50ec267b5f8c185f655bef44ebabf70b190b90c,"{'metadata': 'nl', 'from_text': 'en', 'from_title': 'en'}",application/xhtml+xml,{'harvest': '5a499c4'},\nkop\n\ntest\n\n\n\n\n\n\n,kop,https://maken.wikiwijs.nl/107538/test_hbo_verpleegkunde/item3aba4dddf4082497.html
5,hbovpk,"[#hbovpk, communicator, gezondheidsbevorderaar, organisator, professional en kwaliteitsbevorderaar, reflectieve ebp-professional, samenwerkingspartner, zorgverlener]",e415676fb40d48569c3cb3a5332ffa0db0e90fe2,"{'metadata': 'nl', 'from_text': 'en', 'from_title': 'en'}",application/xhtml+xml,{'harvest': '5a499c4'},\nkop\n\ntest\n\n\n\n\n\n\n,kop,https://maken.wikiwijs.nl/107538/test_hbo_verpleegkunde/item23b06f82f7bbed67.html
6,wwmhbo,[],521c8ba177af77283eb95077404274a15995829d,"{'metadata': 'nl', 'from_text': None, 'from_title': 'nl'}",image/jpeg,{'harvest': '5a499c4'},,Digitaal Portfolio - kopie 1,https://maken.wikiwijs.nl/123400/Digitaal_Portfolio___kopie_1/files/38fb81dccd866ea3fdf4a8a4b0c08fe6d26c6188.JPG
7,wwmhbo,[],c89e6554e6866d39bfb1577ea39714084b3a4450,"{'metadata': 'nl', 'from_text': None, 'from_title': 'nl'}",image/jpeg,{'harvest': '5a499c4'},,Digitaal Portfolio - kopie 1,https://maken.wikiwijs.nl/123400/Digitaal_Portfolio___kopie_1/files/90fde65477359f7175ec26869f2ec48f2f3def4d.JPG
8,wwmhbo,[],671e123f8a3efe7532f351575bd53639286a0e00,"{'metadata': 'nl', 'from_text': None, 'from_title': 'nl'}",image/jpeg,{'harvest': '5a499c4'},,Digitaal Portfolio - kopie 1,https://maken.wikiwijs.nl/123400/Digitaal_Portfolio___kopie_1/files/bf239820b9b89f6f97c78b6e8114a8bfe2e8d717.JPG
9,wwmhbo,[],8a6e2092ceb66b807c00efbfc8b23a3bd0d2651b,"{'metadata': 'nl', 'from_text': None, 'from_title': 'nl'}",image/jpeg,{'harvest': '5a499c4'},,Digitaal Portfolio - kopie 1,https://maken.wikiwijs.nl/123400/Digitaal_Portfolio___kopie_1/files/f6550d1b1eb238c53bc4b874cce2519f18d19764.JPG


In [93]:
duplicate_docs_df.groupby('arrangement_collection_name').count()

Unnamed: 0_level_0,arrangement_keywords,id,language,mime_type,pipeline,text,title,url
arrangement_collection_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
hbovpk,2,2,2,2,2,2,2,2
stimuleringsregeling,4,4,4,2,4,4,4,4
wwmhbo,252,252,252,252,252,55,252,252


It seems that most of these documentes are from wwmhbo.

In [102]:
print(len(duplicate_docs_df.groupby(['url', 'id']).count()))
print(len(duplicate_docs_df.groupby('id').count()))
print(len(duplicate_docs_df.groupby('url').count()))

101
101
101


And, indeed, they all share the same URL and ID

## 2. Verify that certain documents go through all stages
First we check if all the documents in the ranked queries are there

In [104]:
def read_queries(query_file):
    with open(query_file, 'rt') as file:
        return json.load(file)
QUERIES = {lang: read_queries(QUERY_FILES[lang]) for lang in LANGUAGES}

In [106]:
def are_queries_in_freeze(lang, queries):
    missing_docs = {}
    for query in queries:
        for doc in query['items']:
            if util.get_raw_document(doc['hash'], FREEZE_DATA_FOLDER) is None:
                missing_docs[doc['hash']] = {'query': query["queries"][0], 'lang': lang}
    return missing_docs

In [107]:
freeze_missing = [are_queries_in_freeze(lang, QUERIES[lang]) for lang in LANGUAGES]
freeze_missing

[{},
 {'aa508762def8fb9f34ed7e0186eca1c4207e7298': {'query': 'leren leren',
   'lang': 'nl'}}]

### Some useful functions

In [108]:
def get_identifier_freeze(id, identifier):
    """
    Finds a document with 'id' and retrieves the property 'identifier' or None.
    """
    if util.get_raw_document(id, FREEZE_DATA_FOLDER) is not None:
        return util.get_raw_document(id, FREEZE_DATA_FOLDER)[identifier]

## Check if queries are split correctly

To begin with we read in the queries and see:
1. The language of the raw document.
2. The text of the raw document.

In [111]:
query_split_view = [
    {
        'id': item['hash'],
        'freeze_lang': get_identifier_freeze(item['hash'], 'language')['from_text'] if get_identifier_freeze(item['hash'], 'language') is not None else '',
        'query_lang': lang,
        'title': get_identifier_freeze(item['hash'], 'title'),
        'text_snippet': get_identifier_freeze(item['hash'], 'text')[:100] if get_identifier_freeze(item['hash'], 'text') is not None else ''
    }
    for lang in LANGUAGES 
    for query in QUERIES[lang] 
    for item in query['items']
]

query_view = pd.DataFrame(query_split_view)

In [113]:
incorrect_lang = query_view[query_view['freeze_lang'] != query_view['query_lang']]
incorrect_lang

Unnamed: 0,freeze_lang,id,query_lang,text_snippet,title
64,,aa508762def8fb9f34ed7e0186eca1c4207e7298,nl,,
93,en,d610580ea5cea9d1cc0889d9e52ef5add8c1fc31,nl,\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n,Overzicht bereik en transposities veel voorkomende instrumenten
130,en,15350fb67a0634c6612e5a575fed67b75409e365,nl,\n\n,Didactiek van wiskundig denken
131,en,dc55a6bb1c525b3494c07d0557f557605ffec7c2,nl,\n\n,Didactiek van wiskundig denken


In [2]:
util.get_raw_document('34adeddc05423967fd2b70e1068581ba87c0d547', RAW_DATA_FOLDER)

{'id': '34adeddc05423967fd2b70e1068581ba87c0d547',
 'title': 'Water geven',
 'language': {'metadata': 'nl', 'from_text': 'nl', 'from_title': 'nl'},
 'url': 'https://maken.wikiwijs.nl/81245/PBAN7_Bedrijfsgebouwen_tuinbouw/item6f8ffcb899cc385a.html',
 'text': '\nWater geven\n\n\n\n\n\n\n',
 'mime_type': 'application/xhtml+xml',
 'pipeline': {'harvest': '5a499c4'},
 'arrangement_keywords': [],
 'arrangement_collection_name': 'wwmhbo'}

## Check if queries are in correct ES folder
Given that the queries have been split correctly to languages, we check the corresponding elasticsearch documents.

In [124]:
def are_queries_in_es(lang, queries, index):
    missing_docs = {}
    for query in queries:
        for doc in query['items']:
            try:
                response = es_client.get(index=index, doc_type=DOC_TYPE, id=doc['hash'])
            except Exception as e:
                missing_docs[doc['hash']] = {'query': query["queries"][0], 'lang': lang}
    return missing_docs

In [125]:
es_missing = [are_queries_in_es(lang, QUERIES[lang], INDIECES[lang]) for lang in LANGUAGES]
es_missing

[2019-03-14 14:45:09,916][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/18604a456db12d50da67af95f596ab795ea4eb1a [status:200 request:0.006s]
[2019-03-14 14:45:09,921][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/8c87b0c6111df4d2fe8633a8b274851b2ec4a2c0 [status:200 request:0.004s]
[2019-03-14 14:45:09,927][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/fe118ba3f8b3d49a0152f7e1f1bdfbb31490b808 [status:200 request:0.006s]
[2019-03-14 14:45:09,932][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/eb6c2ae9d0f29b7de72a6dc6acfa96a3dcff111f [status:200 request:0.005s]
[2019-03-14 14:45:09,936][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/a000df1ed8e28fc1f9458231ac9fe60c0debe396 [status:200 request:0.003s]
[2019-03-14 14:45:09,941][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/18604a456db12d50da67af95f596ab7

[2019-03-14 14:45:10,179][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/eed8d23e4f4b142bf04a9a962ab4aef6e390a3f1 [status:200 request:0.004s]
[2019-03-14 14:45:10,183][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/cf92f2726f45908b33d006de64d5f42153dcc1ca [status:200 request:0.003s]
[2019-03-14 14:45:10,187][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/f5a6dbdd62e9e329ca92066ea1a592defd5c7f04 [status:200 request:0.004s]
[2019-03-14 14:45:10,191][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/eef2df3658e0eea6da1bf3b778a05242601f8ac5 [status:200 request:0.003s]
[2019-03-14 14:45:10,195][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/401035affeb86d1dcba441593b2ff22d78e9910a [status:200 request:0.003s]
[2019-03-14 14:45:10,204][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-en/_doc/330d36593b97ec9864b9557f8a0a4b3

[2019-03-14 14:45:10,669][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/9699dc0be2e54f3d59ced179c30ab7bf7ef19618 [status:200 request:0.003s]
[2019-03-14 14:45:10,674][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/26a14ae72d8aa1c015510d55e500fe869f426d12 [status:200 request:0.004s]
[2019-03-14 14:45:10,691][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/0dd9e946f3aca97d3e7f09df68efc35a114674e7 [status:200 request:0.016s]
[2019-03-14 14:45:10,708][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/eff32a56fad71d67afe3d4fbcaffa42e1a9135f6 [status:200 request:0.015s]
[2019-03-14 14:45:10,717][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/4c89bc1b0f5c76b6b58fbd13e590c0921a9c42f8 [status:200 request:0.006s]
[2019-03-14 14:45:10,724][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/abb17d5655caa8c1be59e9ed278ad30

[2019-03-14 14:45:10,960][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/9da5ce551c7d507e4df8429daf7f08952ddd28cf [status:200 request:0.003s]
[2019-03-14 14:45:10,964][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/cd27582428028148af2ae465cf03175314b45f81 [status:200 request:0.003s]
[2019-03-14 14:45:10,970][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/096e5cd027af3a71586ab0d80ad0f60ab7d83724 [status:200 request:0.006s]
[2019-03-14 14:45:10,976][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/e8064096f14ec6d252ba5bccdedcddd9ef1a6734 [status:200 request:0.004s]
[2019-03-14 14:45:10,992][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/c72334bcb5f4c517ecacdb76b0654c2725c47ff9 [status:200 request:0.014s]
[2019-03-14 14:45:10,996][INFO   ] GET https://surfpol.sda.surf-hosted.nl:443/freeze4_no_filter-nl/_doc/6f6ae1d8cd6a2cc541620ded919f9f3

[{},
 {'aa508762def8fb9f34ed7e0186eca1c4207e7298': {'query': 'leren leren',
   'lang': 'nl'},
  'd610580ea5cea9d1cc0889d9e52ef5add8c1fc31': {'query': 'noteren van muziek',
   'lang': 'nl'},
  '15350fb67a0634c6612e5a575fed67b75409e365': {'query': 'didactiek',
   'lang': 'nl'},
  'dc55a6bb1c525b3494c07d0557f557605ffec7c2': {'query': 'didactiek',
   'lang': 'nl'}}]

These should be the same documents as above.

In [33]:
def explain(id, query):
    print(es_client.explain(index=INDEX, doc_type=DOC_TYPE, id=id, query=query))

In [36]:
def search(query, **kwargs):
    pprint.pprint(es_client.search(index=INDEX, doc_type=DOC_TYPE, body=query, **kwargs))

In [37]:
usersSearch = 'injecties geven'
Fields = ['title^2', 'text']

query = {
    'query': {
        'multi_match': { 
            'query': usersSearch, #A
            'fields': Fields, #B
        },
    },
  #  'size': '100'
}
search(query)

{'_shards': {'failed': 0, 'skipped': 0, 'successful': 1, 'total': 1},
 'hits': {'hits': [{'_id': '34adeddc05423967fd2b70e1068581ba87c0d547',
                    '_index': 'freeze3-2-nl',
                    '_score': 15.291727,
                    '_source': {'arrangement_collection_name': 'wwmhbo',
                                'conformed_mime_type': 'html',
                                'keywords': [],
                                'mime_type': 'application/xhtml+xml',
                                'text': ' Water geven ',
                                'text_plain': ' Water geven ',
                                'title': 'Water geven',
                                'title_plain': 'Water geven',
                                'url': 'https://maken.wikiwijs.nl/81245/PBAN7_Bedrijfsgebouwen_tuinbouw/item6f8ffcb899cc385a.html'},
                    '_type': '_doc'},
                   {'_id': '41e6906f81c934c40083ea947f5e029007ab5600',
                    '_index': 'freeze3

                                        'dan de MantelScan (DOC15.4) af bij '
                                        'iemand die je in je eigen omgeving '
                                        'kent die mantelzorger is. Wanneer je '
                                        'dit hebt gedaan heb je veel '
                                        'informatie over de zorgsituatie '
                                        'gekregen. Ook de knelpunten zijn '
                                        'wellicht naar boven gekomen. Ook heb '
                                        'je door de MantelScan inzicht '
                                        'gekregen in de ervaren belasting van '
                                        'de mantelzorger. De MantelScan bevat '
                                        'namelijk 2 vragenlijsten die ook in '
                                        'Tabel 15.3 zijn behandeld (de SRBS en '
                                        'de EDIZ). Bedenk welk gerich

In [None]:
raw

In [72]:
explain(id='3605374af3eedfa7084c17cbea6d0fce3862bfb0')

GET https://surfpol.sda.surf-hosted.nl:443/freeze3/doc/3605374af3eedfa7084c17cbea6d0fce3862bfb0/_explain [status:400 request:0.047s]


RequestError: RequestError(400, 'action_request_validation_exception', 'Validation Failed: 1: query is missing;')