In [19]:
import numpy as np
import pandas as pd
import spacy
from spacy import displacy
from spacy.lang.nl.stop_words import STOP_WORDS
from string import punctuation
from spacy.lang.nl import Dutch

In [2]:
# load a medium sized dutch language model in spacy
nlp = spacy.load('nl_core_news_md')

In [3]:
#Ref for attempting summarization https://www.numpyninja.com/post/text-summarization-through-use-of-spacy-library

In [4]:
myfile = open("TaxRelatedFile.txt")

In [5]:
text = myfile.read()

In [6]:
print(text)

BRUSSELS HOOFDSTEDELIJK GEWEST
5 MAART 2020. - Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest


De Brusselse Hoofdstedelijke Regering,
Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;
Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen 5, Â§ 1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;
Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;
Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018

In [7]:
len(text)

7592

In [8]:
doc=nlp(text)

In [9]:
for sent in doc.sents:
    print(sent)

BRUSSELS HOOFDSTEDELIJK GEWEST

5 MAART 2020.
- Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest


De Brusselse Hoofdstedelijke Regering,

Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;

Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen
5, Â§
1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;

Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;

Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober

In [10]:
#Take a look at how many words are in the document
len(doc)

1350

In [11]:
#Look document-level attributes
dir(doc)

['_',
 '__bytes__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '_bulk_merge',
 '_context',
 '_get_array_attrs',
 '_realloc',
 '_vector',
 '_vector_norm',
 'cats',
 'char_span',
 'copy',
 'count_by',
 'doc',
 'ents',
 'extend_tensor',
 'from_array',
 'from_bytes',
 'from_dict',
 'from_disk',
 'from_docs',
 'get_extension',
 'get_lca_matrix',
 'has_annotation',
 'has_extension',
 'has_unknown_spaces',
 'has_vector',
 'is_nered',
 'is_parsed',
 'is_sentenced',
 'is_tagged',
 'lang',
 'lang_',
 'mem',
 'noun_chunks',
 'noun_chunks_iterator',
 'remove_extension',
 'retokenize',
 'sentiment',
 'sents',
 'set_ents',
 'set_

In [12]:
print(doc[5])

MAART


Using spaCy's built-in visualizer to detect named entities in the document

In [13]:
displacy.render(doc, style="ent", jupyter=True)

Look up at label LAW, some tokens related to taxes were identified by spaCy with this label

In [14]:
spacy.explain("LAW")

'Named documents made into laws.'

### Lemmatization

In [15]:
review = str(" ".join([i.lemma_ for i in doc]))

In [16]:
doc = nlp(review)
spacy.displacy.render(doc, style='ent',jupyter=True)

### Parts of Speech tagging

In [18]:
for i in nlp(review):
    print(i, "=>", i.pos_)

BRUSSELS => PROPN
HOOFDSTEDELIJK => PROPN
gEWEST => PROPN

  => SPACE
5 => NUM
MAART => PROPN
2020 => NUM
. => PUNCT
- => PUNCT
besluit => NOUN
van => ADP
de => DET
Brussels => PROPN
hoofdstedelijk => ADJ
regering => NOUN
tot => ADP
wijziging => NOUN
van => ADP
het => DET
koninklijk => ADJ
besluit => NOUN
van => ADP
8 => NUM
juli => PROPN
1970 => NUM
houdenen => VERB
de => DET
algemeen => ADJ
verordening => NOUN
betreffen => VERB
de => DET
met => ADP
de => DET
inkomstenbelasting => NOUN
lijkgestelen => VERB
belasting => NOUN
in => ADP
het => DET
kader => NOUN
van => ADP
de => DET
overname => NOUN
van => ADP
de => DET
dienst => NOUN
van => ADP
de => DET
verkeersbelasting => NOUN
op => ADP
de => DET
autovoertuig => NOUN
en => CCONJ
de => DET
belasting => NOUN
op => ADP
de => DET
inverkeerstelling => NOUN
door => ADP
het => DET
Brussels => PROPN
Hoofdstedelijk => PROPN
Gewest => PROPN



  => SPACE
de => DET
Brussels => PROPN
hoofdstedelijk => ADJ
regering => NOUN
, => PUNCT

  => SPACE
G

In [20]:
# Parser for reviews
parser = Dutch()
def spacy_tokenizer(sentence):
    mytokens = parser(sentence)
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]
    mytokens = [ word for word in mytokens if word not in stopwords and word not in punctuations ]
    mytokens = " ".join([i for i in mytokens])
    return mytokens

In [23]:
from tqdm import tqdm
tqdm.pandas()

In [15]:
#Import puntuaction marks from string and also add additional next line tag in it
punctuation=punctuation+ '\n'

In [16]:
#Tokenize the words from the sentence:
tokens=[token.text for token in doc]
print(tokens)

['BRUSSELS', 'HOOFDSTEDELIJK', 'GEWEST', '\n', '5', 'MAART', '2020', '.', '-', 'Besluit', 'van', 'de', 'Brusselse', 'Hoofdstedelijke', 'Regering', 'tot', 'wijziging', 'van', 'het', 'koninklijk', 'besluit', 'van', '8', 'juli', '1970', 'houdende', 'de', 'algemene', 'verordening', 'betreffende', 'de', 'met', 'de', 'inkomstenbelastingen', 'gelijkgestelde', 'belastingen', 'in', 'het', 'kader', 'van', 'de', 'overname', 'van', 'de', 'dienst', 'van', 'de', 'verkeersbelasting', 'op', 'de', 'autovoertuigen', 'en', 'de', 'belasting', 'op', 'de', 'inverkeerstelling', 'door', 'het', 'Brussels', 'Hoofdstedelijk', 'Gewest', '\n\n\n', 'De', 'Brusselse', 'Hoofdstedelijke', 'Regering', ',', '\n', 'Gelet', 'op', 'de', 'bijzondere', 'wet', 'van', '8', 'augustus', '1980', 'tot', 'hervorming', 'der', 'instellingen', ',', 'artikel', '20', ';', '\n', 'Gelet', 'op', 'het', 'Wetboek', 'van', 'de', 'met', 'inkomstenbelastingen', 'gelijkgestelde', 'belastingen', ',', 'artikelen', '5', ',', 'Â§', '1', ',', 'tweede

In [17]:
#Calculating word frequencies from the text after removing stopwords and puntuactions:

stopwords = list(STOP_WORDS)

word_frequencies={}
for word in doc:
    if word.text.lower() not in stopwords:
        if word.text.lower() not in punctuation:
            if word.text not in word_frequencies.keys():
                word_frequencies[word.text] = 1
            else:
                word_frequencies[word.text] += 1

In [18]:
#Print and see word frequencies to know important words.
print(word_frequencies)

{'BRUSSELS': 1, 'HOOFDSTEDELIJK': 1, 'GEWEST': 1, '5': 6, 'MAART': 1, '2020': 9, 'Besluit': 2, 'Brusselse': 6, 'Hoofdstedelijke': 5, 'Regering': 5, 'wijziging': 3, 'koninklijk': 11, 'besluit': 19, '8': 9, 'juli': 5, '1970': 5, 'houdende': 7, 'algemene': 5, 'verordening': 5, 'inkomstenbelastingen': 9, 'gelijkgestelde': 9, 'belastingen': 11, 'kader': 3, 'overname': 3, 'dienst': 5, 'verkeersbelasting': 9, 'autovoertuigen': 10, 'belasting': 9, 'inverkeerstelling': 9, 'Brussels': 2, 'Hoofdstedelijk': 2, 'Gewest': 2, '\n\n\n': 1, 'Gelet': 5, 'bijzondere': 1, 'wet': 4, 'augustus': 1, '1980': 2, 'hervorming': 1, 'instellingen': 1, 'artikel': 8, '20': 1, 'Wetboek': 3, 'artikelen': 8, 'Â§': 4, '1': 13, 'tweede': 4, 'lid': 8, 'gewijzigd': 4, 'ordonnantie': 5, '28': 2, 'november': 5, '2019': 7, 'gelijkekansentest': 2, 'uitgevoerd': 1, '22': 1, 'toepassing': 9, '2': 5, '4': 3, 'oktober': 1, '2018': 1, 'invoering': 1, 'advies': 1, '66.928/4': 1, 'Raad': 2, 'State': 2, '12': 3, 'februari': 4, '84': 1

In [19]:
#Calculate the maximum frequency and divide it by all frequencies to get normalized word frequencies.
max_frequency=max(word_frequencies.values())
for word in word_frequencies.keys():
    word_frequencies[word]=word_frequencies[word]/max_frequency

In [20]:
#Printing normalized word frequencies:
#Printing in descending order 

#print(word_frequencies)
w_sorted_keys = sorted(word_frequencies, key=word_frequencies.get, reverse=True)
for w in w_sorted_keys:
    print(w, word_frequencies[w])

° 1.0
besluit 0.95
1 0.65
koninklijk 0.55
belastingen 0.55
autovoertuigen 0.5
Art. 0.5
2020 0.45
8 0.45
inkomstenbelastingen 0.45
gelijkgestelde 0.45
verkeersbelasting 0.45
belasting 0.45
inverkeerstelling 0.45
toepassing 0.45
bepalingen 0.45
artikel 0.4
artikelen 0.4
lid 0.4
2Â 0.4
houdende 0.35
2019 0.35
januari 0.35
vervangen 0.35
5 0.3
Brusselse 0.3
1Â 0.3
belastbaar 0.3
feit 0.3
woorden 0.3
Hoofdstedelijke 0.25
Regering 0.25
juli 0.25
1970 0.25
algemene 0.25
verordening 0.25
dienst 0.25
Gelet 0.25
ordonnantie 0.25
november 0.25
2 0.25
opgeheven 0.25
waarvan 0.25
HOOFDSTUK 0.25
hoofdstuk 0.25
uitvoering 0.25
titel 0.25
wet 0.2
Â§ 0.2
tweede 0.2
gewijzigd 0.2
februari 0.2
3Â 0.2
« 0.2
uitsluitend 0.2
valt 0.2
belast 0.2
Brussel 0.2
hetzelfde 0.2
volgende 0.2
regelgeving 0.2
bestaat 0.2
wijziging 0.15
kader 0.15
overname 0.15
Wetboek 0.15
4 0.15
12 0.15
3 0.15
a 0.15
15 0.15
december 0.15
genoemde 0.15
Minister 0.15
FinanciÃ 0.15
n 0.15
bepaling 0.15
Wijzigingen 0.15
27 0.15
Gewestel

In [21]:
#Get sentence tokens 
sentence_tokens= [sent for sent in doc.sents]
print(sentence_tokens)

[BRUSSELS HOOFDSTEDELIJK GEWEST
, 5 MAART 2020., - Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest


De Brusselse Hoofdstedelijke Regering,
, Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;
, Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen, 5, Â§, 1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;
, Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;
, Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 

In [22]:
#Calculate the most important sentences by adding the word frequencies in each sentence.
sentence_scores = {}
for sent in sentence_tokens:
    for word in sent:
        if word.text.lower() in word_frequencies.keys():
            if sent not in sentence_scores.keys():                            
             sentence_scores[sent]=word_frequencies[word.text.lower()]
            else:
             sentence_scores[sent]+=word_frequencies[word.text.lower()]

In [23]:
#Print sentence scores
sentence_scores

{5 MAART 2020.: 0.8500000000000001,
 - Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest
 
 
 De Brusselse Hoofdstedelijke Regering,: 8.300000000000002,
 Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;: 1.4000000000000001,
 Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen: 1.85,
 5, Â§: 0.3,
 1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;: 2.4,
 Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;: 4.75,
 Gelet op de gelijkekansentest uitgevoerd op 22 november 20

In [24]:
#From headhq import nlargest and calculate  30% of text with maximum score.
from heapq import nlargest
select_length=int(len(sentence_tokens)*0.3)
select_length
summary=nlargest(select_length, sentence_scores,key=sentence_scores.get)
summary

[Overwegende dat de ordonnantie van 28 november 2019 tot wijziging van het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en van de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest, in zijn artikelen 3, 1Â°, a), iv, et b), 12, 13 en 15, 2Â° en 3Â° de bepalingen die momenteel vervat zijn in de artikelen 15, Â§ 1, en 58 van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen, heeft geÃ¯ntegreerd in de artikelen,
 In artikel 15 van hetzelfde besluit, gewijzigd bij het koninklijk besluit van 10 november 1980 en bij de wet van 19 februari 1990, worden de volgende wijzigingen aangebracht :
 1Â° paragraaf 1 wordt opgeheven;
 2Â° in paragraaf 2 worden de volgende wijzigingen aangebracht:
 a) in de bepaling onder 1Â° worden de woorden "wet van 27 december 1974 betreffende de

In [25]:
#Get the summary of text
final_summary=[word.text for word in summary]
final_summary
summary=''.join(final_summary)
summary

'Overwegende dat de ordonnantie van 28 november 2019 tot wijziging van het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en van de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk Gewest, in zijn artikelen 3, 1Â°, a), iv, et b), 12, 13 en 15, 2Â° en 3Â° de bepalingen die momenteel vervat zijn in de artikelen 15, Â§ 1, en 58 van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen, heeft geÃ¯ntegreerd in de artikelenIn artikel 15 van hetzelfde besluit, gewijzigd bij het koninklijk besluit van 10 november 1980 en bij de wet van 19 februari 1990, worden de volgende wijzigingen aangebracht :\n1Â° paragraaf 1 wordt opgeheven;\n2Â° in paragraaf 2 worden de volgende wijzigingen aangebracht:\na) in de bepaling onder 1Â° worden de woorden "wet van 27 december 1974 betreffende de ta

In [26]:
len(summary)

6165

In [27]:
# all the texts together
# import glob 

# path = 'text_nl/*.txt'

# all_texts=""

# for file in glob.glob(path):
#     with open(file, encoding='utf-8', errors='ignore') as file_in:
#         text = file_in.read()
#         all_texts+=text
#         lines = text.split('\n')
#         for line in lines:
#             line = nlp(line)
#             for token in line:
#                 print(token)

In [28]:
#len(all_texts)

In [29]:
#docs = list(nlp.pipe(all_texts), n_process=4)
# docs = nlp.pipe(all_texts, n_process=4)

In [30]:
# from collections import Counter

# all_laws = []

# for d in docs:
#     laws = [ent.text for ent in d.ents if ent.label_ == "LAW"]
#     all_laws.extend(laws)

# Counter(all_laws).most_common(2)
    

### Creating a dataframe from files

In [92]:
#all the texts together
import glob 
pd.set_option('display.max_rows', None)
pd.set_option('max_colwidth', 400)
path = 'text_nl/*.txt'
#path = 'TaxRelatedFile.txt'

all_texts=""


dataframes = []

df = pd.DataFrame(columns = ["article_content"])

for file in glob.glob(path):
    with open(file, encoding='utf-8', errors='ignore') as file_in:
        dataframe = file_in.read().replace('\n', '')
        dataframes.append(dataframe)

#         text = file_in.read()
#         text = text
     #   df_temp = pd.read_fwf(file_in)
     #    df["article_content"] = pd.read_fwf(file_in)
        
        #df = pd.concat(text, axis=1)
#df = df.append(dataframes, ignore_index=True)
to_append = dataframes
my_series = pd.Series(to_append)
#df = df.append(my_series, ignore_index=True)
#df = pd.concat(my_series, ignore_index=True)

df["article_content"]= my_series
#pd.concat([df,pd.DataFrame(my_series)],axis=1)

       
        
        

In [95]:
df.head()

Unnamed: 0,article_content
0,"Moniteur Belge - Belgisch Staatsblad <!-- hide jvscr code for old browsers function NxtHit () { window.status=""volgende woord""; setTimeout (""window.status=' '"",6000);} function PrvHit () { window.status=""Vorige woord""; setTimeout (""window.status=' '"",6000);} function FirstHit () { window.status=""Eerste gevonden woord""; setTimeout (""window.status=' '"",60..."
1,"Moniteur Belge - Belgisch Staatsblad <!-- hide jvscr code for old browsers function NxtHit () { window.status=""volgende woord""; setTimeout (""window.status=' '"",6000);} function PrvHit () { window.status=""Vorige woord""; setTimeout (""window.status=' '"",6000);} function FirstHit () { window.status=""Eerste gevonden woord""; setTimeout (""window.status=' '"",60..."
2,"Moniteur Belge - Belgisch Staatsblad <!-- hide jvscr code for old browsers function NxtHit () { window.status=""volgende woord""; setTimeout (""window.status=' '"",6000);} function PrvHit () { window.status=""Vorige woord""; setTimeout (""window.status=' '"",6000);} function FirstHit () { window.status=""Eerste gevonden woord""; setTimeout (""window.status=' '"",60..."
3,"Moniteur Belge - Belgisch Staatsblad <!-- hide jvscr code for old browsers function NxtHit () { window.status=""volgende woord""; setTimeout (""window.status=' '"",6000);} function PrvHit () { window.status=""Vorige woord""; setTimeout (""window.status=' '"",6000);} function FirstHit () { window.status=""Eerste gevonden woord""; setTimeout (""window.status=' '"",60..."
4,"Moniteur Belge - Belgisch Staatsblad <!-- hide jvscr code for old browsers function NxtHit () { window.status=""volgende woord""; setTimeout (""window.status=' '"",6000);} function PrvHit () { window.status=""Vorige woord""; setTimeout (""window.status=' '"",6000);} function FirstHit () { window.status=""Eerste gevonden woord""; setTimeout (""window.status=' '"",60..."


In [98]:
df.iloc[[5]].to_string()

'                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

In [None]:
df.iloc[[5]].to_string()

In [31]:
dataframes

['BRUSSELS HOOFDSTEDELIJK GEWEST5 MAART 2020. - Besluit van de Brusselse Hoofdstedelijke Regering tot wijziging van het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen in het kader van de overname van de dienst van de verkeersbelasting op de autovoertuigen en de belasting op de inverkeerstelling door het Brussels Hoofdstedelijk GewestDe Brusselse Hoofdstedelijke Regering,Gelet op de bijzondere wet van 8 augustus 1980 tot hervorming der instellingen, artikel 20;Gelet op het Wetboek van de met inkomstenbelastingen gelijkgestelde belastingen, artikelen 5, § 1, tweede lid, gewijzigd bij de ordonnantie van 28 november 2019;Gelet op het koninklijk besluit van 8 juli 1970 houdende de algemene verordening betreffende de met de inkomstenbelastingen gelijkgestelde belastingen;Gelet op de gelijkekansentest uitgevoerd op 22 november 2019 in toepassing van artikel 2 van de ordonnantie van 4 oktober 2018 tot in