## Demo: Information Extraction from

This notebook contains a demo for running the code from the github [link]. 

In [1]:
# import data
import pandas as pd

ksa = pd.read_csv("D:\\Documents\\UvA\\CITaDOG\\ksa_1.csv").set_index('foi_documentId')

ksa.head(2)

Unnamed: 0_level_0,foi_dossierType,foi_pageNumber,foi_bodyText,foi_bodyTextOCR,foi_hasOCR,foi_redacted,foi_nrRedactedRegions,foi_contourArea,foi_textArea,foi_charArea,...,foi_decisionDate,foi_valuation,foi_requestText,foi_decisionText,foi_isAdjourned,foi_requester,foi_retrievedDate,tooiwl_rubriek,tooiwl_rubriekCode,foi_geoInfo
foi_documentId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
nl.ab5.2k.2014.1.bijlage.1,2k,1,,OPENBAAR Kansspelautoriteit Beslui...,True,0.0,0.0,0.0,4121800.0,917050.0,...,,,,,,,2023-03-10,,,
nl.ab5.2k.2014.1.bijlage.1,2k,2,,OPENBAAR Kansspelautoriteit Datum 21 nov...,True,0.0,0.0,0.0,5008125.0,983842.0,...,,,,,,,2023-03-10,,,


In [2]:
# Import and load nlp-model

from scripts.spacy_model import spacy_nlp
nlp = spacy_nlp()

Successfully loaded nlp-model.


In [3]:
# Preprocess and clean text

from scripts.clean_text import run_clean_text

ksa = run_clean_text(ksa)

print(ksa.shape)
ksa[['foi_bodyTextOCR', 'cleaned_text']].head(2)

(3624, 57)


Unnamed: 0_level_0,foi_bodyTextOCR,cleaned_text
foi_documentId,Unnamed: 1_level_1,Unnamed: 2_level_1
nl.ab5.2k.2014.1.bijlage.1,OPENBAAR Kansspelautoriteit Beslui...,Besluit van de Raad van Bestuur van de Kansspe...
nl.ab5.2k.2014.1.bijlage.1,OPENBAAR Kansspelautoriteit Datum 21 nov...,Inhoudsopgave Samenvatting. … sss sens veeenen...


### Categorization of data

In [4]:
from scripts.categorization import hasFilterWords, removeAdviceRevelation, isPrimair, convertToSents, identifyLegalEffect

l_o_s = list(ksa.loc['nl.ab5.2k.2014.1.bijlage.1']['cleaned_text'])

print(hasFilterWords(l_o_s, category='sanctie'))

l_o_s = removeAdviceRevelation(l_o_s)

print(isPrimair(l_o_s))

l_o_s_s = convertToSents(l_o_s)

identifyLegalEffect(l_o_s_s)

Successfully loaded nlp-model.
Successfully loaded nlp-model.
True
True


(['€ 20.000', '€ 20.000', '€ 20.000.'],
 [[0, [11, 12]], [12, [3, 4, 5]], [13, [1, 2, 3]]])

In [5]:
from scripts.categorization import isCategoryPrimair

l_o_s = list(ksa.loc['nl.ab5.2k.2014.1.bijlage.1']['cleaned_text'])

boetes = isCategoryPrimair(l_o_s)
legal_effect = None
list_of_sents = None
if boetes:
    list_of_sents = boetes[1]
    legal_effect = boetes[2][0]
    legal_effect_idxs = boetes[2][1]

['€ 20.000', '€ 20.000', '€ 20.000.']


In [6]:
from scripts.article import find_articles

articles, articles_idxs = find_articles(list_of_sents, nlp)

[[0, [0, 1]], [7, [2, 3, 4]], [9, [11, 12, 13]], [10, [1, 2, 3, 5, 6, 7, 10, 11, 12]], [13, [0, 1, 2]]]
['artikel 35a van de Wet op de kansspelen', 'artikel 3, boek 2 van het Burgerlijk Wetboek).', 'artikel 5:48 van de Algemene wet bestuursrecht.', 'artikel 30t, eerste lid, aanhef en onder c van de Wok', 'artikel 30b,', 'artikel 30r, eerste lid, van de Wok. 4 Zienswijze 14.', 'artikel 33b van de Wok', 'artikel 35a van de Wok', 'artikel 30t, eerste lid, van de Wok. 6.2', 'Artikel 30t, eerste lid, aanhef en onder c, van de Wok', 'artikel 33a,', 'artikel 30r, eerste lid,', 'artikel 30b,', 'Artikel 30r, eerste lid, van de Wok', 'artikel 33a,', 'Artikel 30b, eerste lid, van de Wok', 'artikel 3 van de Drank- en Horecawet', 'artikel 30t, eerste lid, van de Wok', 'artikel 12 van het Speelautomatenbesluit 2000).?? 6.5', 'artikel 30t, eerste lid, aanhef en onder c, van de Wok overtreden.', 'artikel 30t, eerste lid, aanhef en onder c, van de Wok. 21', 'artikel 35a van de Wok bevoegd', 'artikel 5:

In [7]:
from scripts.candidateSentences import selectCandidateSentences

candidate_sents = selectCandidateSentences(legal_effect_idxs, articles_idxs, list_of_sents)

In [8]:
from scripts.askGPT import askGPT, extractInformation

response = askGPT(candidate_sents)

In [12]:
df = extractInformation(response)

In [17]:
# extract date
# note: external data is used. See scripts/extract_date for download
from scripts.extract_date import extract_date

date = extract_date(ksa.loc['nl.ab5.2k.2014.1.bijlage.1'])[1]

df['date'] = date

In [18]:
df

Unnamed: 0,legal effect,ontvanger,overtreden_artikel,type of activity,dma,legal basis,date
0,[20000],[Eigenaar van de elektronicawinkel Star SAT El...,"[[artikel 30t, eerste lid, aanhef en onder c, ...",Het aanwezig hebben van een speelautomaat (gok...,Raad van Bestuur van de Kansspelautoriteit,artikel 35a van de Wet op de kansspelen,21/11/2013
