In [52]:
import numpy as np
import pandas as pd
import spacy
import glob 
from tqdm import tqdm
from spacy import displacy
from spacy.lang.nl.stop_words import STOP_WORDS
from string import punctuation
from spacy.lang.nl import Dutch

In [2]:
# load a medium sized dutch language model in spacy
nlp = spacy.load('nl_core_news_md')

In [3]:
#Ref for attempting summarization https://www.numpyninja.com/post/text-summarization-through-use-of-spacy-library

In [4]:
myfile = open("TaxRelatedFile.txt")

In [5]:
text = myfile.read()

In [6]:
print(text)

BRUSSELS HOOFDSTEDELIJK GEWEST
5 MAART 2020. - Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest


De Brusselse Hoofdstedelijke Regering,
Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;
Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen 5, Â§ 1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;
Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;
Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018

In [7]:
len(text)

7592

In [8]:
doc=nlp(text)

In [9]:
for sent in doc.sents:
    print(sent)

BRUSSELS HOOFDSTEDELIJK GEWEST

5 MAART 2020.
- Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest


De Brusselse Hoofdstedelijke Regering,

Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;

Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen
5, Â§
1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;

Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;

Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober

In [10]:
#Take a look at how many words are in the document
len(doc)

1350

In [11]:
#Look document-level attributes
dir(doc)

['_',
 '__bytes__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '_bulk_merge',
 '_context',
 '_get_array_attrs',
 '_realloc',
 '_vector',
 '_vector_norm',
 'cats',
 'char_span',
 'copy',
 'count_by',
 'doc',
 'ents',
 'extend_tensor',
 'from_array',
 'from_bytes',
 'from_dict',
 'from_disk',
 'from_docs',
 'get_extension',
 'get_lca_matrix',
 'has_annotation',
 'has_extension',
 'has_unknown_spaces',
 'has_vector',
 'is_nered',
 'is_parsed',
 'is_sentenced',
 'is_tagged',
 'lang',
 'lang_',
 'mem',
 'noun_chunks',
 'noun_chunks_iterator',
 'remove_extension',
 'retokenize',
 'sentiment',
 'sents',
 'set_ents',
 'set_

In [12]:
print(doc[5])

MAART


Using spaCy's built-in visualizer to detect named entities in the document

In [13]:
displacy.render(doc, style="ent", jupyter=True)

Look up at label LAW, some tokens related to taxes were identified by spaCy with this label

In [14]:
spacy.explain("LAW")

'Named documents made into laws.'

### Lemmatization

In [15]:
review = str(" ".join([i.lemma_ for i in doc]))

In [16]:
doc = nlp(review)
spacy.displacy.render(doc, style='ent',jupyter=True)

### Parts of Speech tagging

In [17]:
for i in nlp(review):
    print(i, "=>", i.pos_)

BRUSSELS => PROPN
HOOFDSTEDELIJK => PROPN
gEWEST => PROPN

  => SPACE
5 => NUM
MAART => PROPN
2020 => NUM
. => PUNCT
- => PUNCT
besluit => NOUN
van => ADP
de => DET
Brussels => PROPN
hoofdstedelijk => ADJ
regering => NOUN
tot => ADP
wijziging => NOUN
van => ADP
het => DET
koninklijk => ADJ
besluit => NOUN
van => ADP
8 => NUM
juli => PROPN
1970 => NUM
houdenen => VERB
de => DET
algemeen => ADJ
verordening => NOUN
betreffen => VERB
de => DET
met => ADP
de => DET
inkomstenbelasting => NOUN
lijkgestelen => VERB
belasting => NOUN
in => ADP
het => DET
kader => NOUN
van => ADP
de => DET
overname => NOUN
van => ADP
de => DET
dienst => NOUN
van => ADP
de => DET
verkeersbelasting => NOUN
op => ADP
de => DET
autovoertuig => NOUN
en => CCONJ
de => DET
belasting => NOUN
op => ADP
de => DET
inverkeerstelling => NOUN
door => ADP
het => DET
Brussels => PROPN
Hoofdstedelijk => PROPN
Gewest => PROPN



  => SPACE
de => DET
Brussels => PROPN
hoofdstedelijk => ADJ
regering => NOUN
, => PUNCT

  => SPACE
G

In [20]:
#Import puntuaction marks from string and also add additional next line tag in it
punctuation=punctuation+ '\n'

In [21]:
#Tokenize the words from the sentence:
tokens=[token.text for token in doc]
print(tokens)

['BRUSSELS', 'HOOFDSTEDELIJK', 'gEWEST', '\n ', '5', 'MAART', '2020', '.', '-', 'besluit', 'van', 'de', 'Brussels', 'hoofdstedelijk', 'regering', 'tot', 'wijziging', 'van', 'het', 'koninklijk', 'besluit', 'van', '8', 'juli', '1970', 'houdenen', 'de', 'algemeen', 'verordening', 'betreffen', 'de', 'met', 'de', 'inkomstenbelasting', 'lijkgestelen', 'belasting', 'in', 'het', 'kader', 'van', 'de', 'overname', 'van', 'de', 'dienst', 'van', 'de', 'verkeersbelasting', 'op', 'de', 'autovoertuig', 'en', 'de', 'belasting', 'op', 'de', 'inverkeerstelling', 'door', 'het', 'Brussels', 'Hoofdstedelijk', 'Gewest', '\n\n\n ', 'de', 'Brussels', 'hoofdstedelijk', 'regering', ',', '\n ', 'Gelet', 'op', 'de', 'bijzonder', 'wet', 'van', '8', 'augustus', '1980', 'tot', 'hervorming', 'de', 'instelling', ',', 'artikel', '20', ';', '\n ', 'gelet', 'op', 'het', 'wetboek', 'van', 'de', 'met', 'inkomstenbelasting', 'lijkgestelen', 'belasting', ',', 'artikel', '5', ',', 'Â§', '1', ',', 'twee', 'lid', ',', 'wijzigen

In [22]:
#Calculating word frequencies from the text after removing stopwords and puntuactions:

stopwords = list(STOP_WORDS)

word_frequencies={}
for word in doc:
    if word.text.lower() not in stopwords:
        if word.text.lower() not in punctuation:
            if word.text not in word_frequencies.keys():
                word_frequencies[word.text] = 1
            else:
                word_frequencies[word.text] += 1

In [23]:
#Print and see word frequencies to know important words.
print(word_frequencies)

{'BRUSSELS': 1, 'HOOFDSTEDELIJK': 1, 'gEWEST': 1, '\n ': 46, '5': 6, 'MAART': 1, '2020': 9, 'besluit': 21, 'Brussels': 8, 'hoofdstedelijk': 5, 'regering': 5, 'wijziging': 6, 'koninklijk': 11, '8': 9, 'juli': 5, '1970': 5, 'houdenen': 6, 'algemeen': 5, 'verordening': 5, 'betreffen': 8, 'inkomstenbelasting': 9, 'lijkgestelen': 7, 'belasting': 20, 'kader': 3, 'overname': 3, 'dienst': 5, 'verkeersbelasting': 9, 'autovoertuig': 10, 'inverkeerstelling': 9, 'Hoofdstedelijk': 2, 'Gewest': 2, '\n\n\n ': 1, 'Gelet': 2, 'bijzonder': 1, 'wet': 5, 'augustus': 1, '1980': 2, 'hervorming': 1, 'instelling': 1, 'artikel': 18, '20': 1, 'gelet': 3, 'wetboek': 3, 'Â§': 4, '1': 13, 'twee': 4, 'lid': 8, 'wijzigen': 4, 'ordonnantie': 5, '28': 2, 'november': 5, '2019': 7, 'gelijkgestelde': 2, 'gelijkekansentest': 1, 'uit_voeren': 1, '22': 1, 'toepassing': 9, '2': 5, '4': 3, 'oktober': 1, '2018': 1, 'invoering': 1, 'Gelijkekansentest': 1, 'advies': 1, '66.928/4': 1, 'Raad': 2, 'State': 2, '12': 3, 'februari': 4

In [24]:
#Calculate the maximum frequency and divide it by all frequencies to get normalized word frequencies.
max_frequency=max(word_frequencies.values())
for word in word_frequencies.keys():
    word_frequencies[word]=word_frequencies[word]/max_frequency

In [25]:
#Printing normalized word frequencies:
#Printing in descending order 

#print(word_frequencies)
w_sorted_keys = sorted(word_frequencies, key=word_frequencies.get, reverse=True)
for w in w_sorted_keys:
    print(w, word_frequencies[w])


  1.0
besluit 0.45652173913043476
belasting 0.43478260869565216
° 0.43478260869565216
artikel 0.391304347826087
1 0.2826086956521739
bepaling 0.2608695652173913
koninklijk 0.2391304347826087
autovoertuig 0.21739130434782608
Art. 0.21739130434782608
2020 0.1956521739130435
8 0.1956521739130435
inkomstenbelasting 0.1956521739130435
verkeersbelasting 0.1956521739130435
inverkeerstelling 0.1956521739130435
toepassing 0.1956521739130435
Brussels 0.17391304347826086
betreffen 0.17391304347826086
lid 0.17391304347826086
2Â 0.17391304347826086
lijkgestelen 0.15217391304347827
2019 0.15217391304347827
januari 0.15217391304347827
vervangen 0.15217391304347827
5 0.13043478260869565
wijziging 0.13043478260869565
houdenen 0.13043478260869565
1Â 0.13043478260869565
belastbaar 0.13043478260869565
feit 0.13043478260869565
volgen 0.13043478260869565
woord 0.13043478260869565
hoofdstedelijk 0.10869565217391304
regering 0.10869565217391304
juli 0.10869565217391304
1970 0.10869565217391304
algemeen 0.108

In [26]:
#Get sentence tokens 
sentence_tokens= [sent for sent in doc.sents]
print(sentence_tokens)

[BRUSSELS HOOFDSTEDELIJK gEWEST, 
 5 MAART 2020 ., - besluit van de Brussels hoofdstedelijk regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdenen, de algemeen verordening betreffen de met de inkomstenbelasting lijkgestelen belasting in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuig en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest 


 de Brussels hoofdstedelijk regering , 
 , Gelet op de bijzonder wet van 8 augustus 1980 tot hervorming de instelling , artikel 20 ; 
 gelet op het wetboek van de met inkomstenbelasting lijkgestelen belasting , artikel 5 , Â§ 1 , twee lid , wijzigen bij de ordonnantie van 28 november 2019 ; 
 gelet op het koninklijk besluit van 8 juli 1970 houdenen, de algemeen verordening betreffen de met de inkomstenbelasting gelijkgestelde belasting ;, 
 , Gelet op de gelijkekansentest uit_voeren op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018 to

In [27]:
#Calculate the most important sentences by adding the word frequencies in each sentence.
sentence_scores = {}
for sent in sentence_tokens:
    for word in sent:
        if word.text.lower() in word_frequencies.keys():
            if sent not in sentence_scores.keys():                            
             sentence_scores[sent]=word_frequencies[word.text.lower()]
            else:
             sentence_scores[sent]+=word_frequencies[word.text.lower()]

In [28]:
#Print sentence scores
sentence_scores

{BRUSSELS HOOFDSTEDELIJK gEWEST: 0.10869565217391304,
 
  5 MAART 2020 .: 1.3695652173913042,
 - besluit van de Brussels hoofdstedelijk regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdenen: 2.0434782608695654,
 de algemeen verordening betreffen de met de inkomstenbelasting lijkgestelen belasting in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuig en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest 
 
 
  de Brussels hoofdstedelijk regering , 
  : 3.804347826086957,
 Gelet op de bijzonder wet van 8 augustus 1980 tot hervorming de instelling , artikel 20 ; 
  gelet op het wetboek van de met inkomstenbelasting lijkgestelen belasting , artikel 5 , Â§ 1 , twee lid , wijzigen bij de ordonnantie van 28 november 2019 ; 
  gelet op het koninklijk besluit van 8 juli 1970 houdenen: 6.695652173913043,
 de algemeen verordening betreffen de met de inkomstenbelasting gelijkgestelde belasting ;: 1.0652173913043477,
 


In [29]:
#From headhq import nlargest and calculate  30% of text with maximum score.
from heapq import nlargest
select_length=int(len(sentence_tokens)*0.3)
select_length
summary=nlargest(select_length, sentence_scores,key=sentence_scores.get)
summary

[Gelet op de gelijkekansentest uit_voeren op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018 tot invoering van de Gelijkekansentest ; 
  gelet op advies 66.928/4 van de Raad van State , geven op 12 februari 2020 , met toepassing van artikel 84 , Â§ 1 , één lid , 2Â ° , van de wet op de Raad van State , coÃ¶rdineren op 12 januari 1973 ; 
  overwegende dat de ordonnantie van 28 november 2019 tot wijziging van het wetboek van de met inkomstenbelasting lijkgestelen belasting in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuig en van de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest , in zijn artikel 3 , 1Â ° , a ) , iv , et b ) , 12 , 13 en 15 , 2Â ° en 3Â ° de bepaling die momenteel vervat zijn in de artikel 15 , Â§ 1 , en 58 van het koninklijk besluit van 8 juli 1970 houdenen,
 Gelet op de bijzonder wet van 8 augustus 1980 tot hervorming de instelling , artikel 20 ; 
  gelet op het wetboek va

In [30]:
#Get the summary of text
final_summary=[word.text for word in summary]
final_summary
summary=''.join(final_summary)
summary

'Gelet op de gelijkekansentest uit_voeren op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018 tot invoering van de Gelijkekansentest ; \n gelet op advies 66.928/4 van de Raad van State , geven op 12 februari 2020 , met toepassing van artikel 84 , Â§ 1 , één lid , 2Â ° , van de wet op de Raad van State , coÃ¶rdineren op 12 januari 1973 ; \n overwegende dat de ordonnantie van 28 november 2019 tot wijziging van het wetboek van de met inkomstenbelasting lijkgestelen belasting in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuig en van de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest , in zijn artikel 3 , 1Â ° , a ) , iv , et b ) , 12 , 13 en 15 , 2Â ° en 3Â ° de bepaling die momenteel vervat zijn in de artikel 15 , Â§ 1 , en 58 van het koninklijk besluit van 8 juli 1970 houdenenGelet op de bijzonder wet van 8 augustus 1980 tot hervorming de instelling , artikel 20 ; \n gelet op het wetboek van d

In [31]:
len(summary)

5605

In [32]:
# all the texts together
# import glob 

# path = 'text_nl/*.txt'

# all_texts=""

# for file in glob.glob(path):
#     with open(file, encoding='utf-8', errors='ignore') as file_in:
#         text = file_in.read()
#         all_texts+=text
#         lines = text.split('\n')
#         for line in lines:
#             line = nlp(line)
#             for token in line:
#                 print(token)

In [33]:
#len(all_texts)

In [34]:
#docs = list(nlp.pipe(all_texts), n_process=4)
# docs = nlp.pipe(all_texts, n_process=4)

In [35]:
# from collections import Counter

# all_laws = []

# for d in docs:
#     laws = [ent.text for ent in d.ents if ent.label_ == "LAW"]
#     all_laws.extend(laws)

# Counter(all_laws).most_common(2)
    

### Creating a dataframe from files

In [36]:
#all the texts together
def createDF(path):
    """
    This function receives a path where files and merge the files into a dataframe
    
    """

    path = path
    dataframes = []
    df = pd.DataFrame(columns = ["article_content"])

    for file in glob.glob(path):
        with open(file, encoding='utf-8', errors='ignore') as file_in:
            dataframe = file_in.read().replace('\n', '')
            dataframes.append(dataframe)
    to_append = dataframes
    my_series = pd.Series(to_append)
    df["article_content"]= my_series
    
    return df


In [80]:
df = createDF('clean_text_nl/*.txt')

In [81]:
df.head()

Unnamed: 0,article_content
0,Dienst Reglementering. - Akkoord in onderling ...
1,"Wet houdende fiscale, fraudebestrijdende, fina..."
2,Decreet houdende bekrachtiging van de besluite...
3,Dienst Reglementering. - Akkoord in onderling ...
4,Bijzondere machtenbesluit van de Brusselse Hoo...


In [84]:
df.iloc[[5]]

Unnamed: 0,article_content
5,Ministerieel besluit houdende wijziging van he...


In [85]:
df.iloc[[6]].to_string()

'                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

In [67]:
# # Parser for content
# parser = Dutch()
# punctuations = punctuation
# stopwords = list(STOP_WORDS)
# def spacy_tokenizer(sentence):
#     mytokens = parser(sentence)
#     mytokens = [word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]
#     print(mytokens)
#     mytokens = [word for word in mytokens if word not in stopwords and word not in punctuations ]
#     mytokens = " ".join([i for i in mytokens])
#     return mytokens

In [91]:
#ref: https://stackoverflow.com/questions/45605946/how-to-do-text-pre-processing-using-spacy
stopwords = list(STOP_WORDS)
punctuations = punctuation
def normalize(comment, lowercase, remove_stopwords):
    """
    This function is used to normalize the text, remove stopwords and punctuations
    
    """
    if lowercase:
        comment = comment.lower()
    comment = nlp(comment)
    lemmatized = list()
    for word in comment:
        lemma = word.lemma_.strip()
        if lemma:
            if not remove_stopwords or (remove_stopwords and lemma not in stopwords and lemma not in punctuations):
                lemmatized.append(lemma)
    return " ".join(lemmatized)

In [92]:
tqdm.pandas()
df["processed_content"] = df["article_content"].progress_apply(normalize, lowercase=True, remove_stopwords=True)
#df["processed_content"] = df["article_content"].progress_apply(spacy_tokenizer)

100%|██████████| 673/673 [03:02<00:00,  3.68it/s]


In [96]:
df

Unnamed: 0,article_content,processed_content
0,Dienst Reglementering. - Akkoord in onderling ...,dienst reglementering akkoord onderling overle...
1,"Wet houdende fiscale, fraudebestrijdende, fina...",wet houden fiscaal fraudebestrijdend financile...
2,Decreet houdende bekrachtiging van de besluite...,decreet houden bekrachtiging besluit Waals reg...
3,Dienst Reglementering. - Akkoord in onderling ...,dienst reglementering akkoord onderling overle...
4,Bijzondere machtenbesluit van de Brusselse Hoo...,bijzonder machtenbesluit Brussels hoofdstedeli...
...,...,...
668,Wet houdende diverse dringende fiscale bepalin...,wet houden divers dringend fiscaal bepaling ge...
669,Selectienummer: AFG20033 Deze selectie werd af...,selectie_nummer Afg20033 selectie af_sluiten 2...
670,Selectienummer: ANG21030 Solliciteren kan tot ...,selectie_nummer ang21030 solliciteren 06/04/20...
671,Besluit van de Vlaamse Regering tot wijziging ...,besluit Vlaams regering wijziging besluit Vlaa...


In [97]:
df["processed_content"][6]

'bijzonderemachtenbesluit Brussels hoofdstedelijk regering nummer 2020/051 houden divers maatregel oog tijdelijk opschorting belasting inrichting toeristisch logie grond gezondheidscrisis covid-19 verslag Brussels hoofdstedelijk regering attentie lid regering voorontwerp besluit onderzoek voor_leggen strekt ertoe exploitant actief Brussels sector toeristisch verblijf financieel helpen normaal omstandigheid uitbater inrichting toeristisch logie onderwerpen city tax berekenen per overnachting voorzien ordonnantie 23 december 2016 betreffen gewestbelasting inrichting toeristisch logie uit_breken gezondheidscrisis gevolg covid-19-coronavirus effect wereldwijde crisis economisch activiteit toerisme vraag overnachting inrichting toeristisch logies sterk verminderen vermindering internationaal toeristisch verplaatsing bijzonder zakentoerisme waarvan Brussels hotelsector sterk afhankelijk sterk impact sector ondanks laag bezettingsgraad trachten overleven aanzienlijk aantal inrichting toeristi

In [90]:
df["article_content"][6]

'Bijzonderemachtenbesluit van de Brusselse Hoofdstedelijke Regering nr. 2020/051 houdende diverse maatregelen met het oog op de tijdelijke opschorting van de belasting op de inrichtingen van toeristisch logies op grond van de gezondheidscrisis van de COVID-19 VERSLAG AAN DE BRUSSELSE HOOFDSTEDELIJKE REGERING Ter attentie van de leden van de Regering, Het voorontwerp van besluit dat aan u ter onderzoek wordt voorgelegd strekt ertoe de exploitanten die actief zijn in de Brusselse sector van het toeristisch verblijf financieel te helpen. Onder normale omstandigheden zijn de uitbaters van inrichtingen van toeristisch logies onderworpen aan de City Tax, berekend per overnachting, die is voorzien in de ordonnantie van 23 december 2016 betreffende de gewestbelasting op de inrichtingen van toeristisch logies. Sinds het uitbreken van de gezondheidscrisis als gevolg van het COVID-19-coronavirus, hebben de effecten van deze wereldwijde crisis op de economische activiteit en het toerisme de vraag 