## Parse

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import sys
sys.path.append('..')
import collections
import statistics
%matplotlib inline
from typing import List, Dict
import re
from gesetz import Gesetz, progressBar

In [3]:
import pickle
with open("pickles/laws.pickle", "rb") as fp:   # Unpickling
    Gesetz.collected_laws = pickle.load(fp)

## Try stemming

In [4]:
ges = Gesetz.collected_laws["AufbhG"]
print(ges.stems)
print(ges.aliases)

[['aufbauhilfefonds-errichtungsgesetz'], ['setz', 'errichtung', 'sondervermog', '„', 'aufbauhilf', '“']]
['Aufbauhilfefonds-Errichtungsgesetz', 'Gesetz zur Errichtung eines Sondervermögens „Aufbauhilfe“']


In [5]:
for law in progressBar(Gesetz.collected_laws.values()):
    law.find_outward_links()

1663/1663 |████████████████████████████████████████████████████████████████████████████████████████████████████| 100.0% (ZweckVG)


In [7]:
dict_amount = {}
for law in Gesetz.collected_laws.values():
    unmatched_links = [link.hit for link in law.links if link.target==None]
    for link in unmatched_links:
        if link not in dict_amount:
            dict_amount[link] = 1
        else:
            dict_amount[link] = dict_amount[link] + 1
    


linkz = zip(dict_amount.values(),dict_amount.keys())
unmatched_links = sorted(((n,d) for n,d in linkz),reverse=True)

print("matched: "+str(sum([len([link for link in ges.links if link.target!=None]) for ges in Gesetz.collected_laws.values()])))
print("unmatched: "+str(sum([len([link for link in ges.links if link.target==None]) for ges in Gesetz.collected_laws.values()])))
print("unmatched groups: "+str(len(unmatched_links)))

matched: 21321
unmatched: 4948
unmatched groups: 601


In [8]:
for link in unmatched_links[:30]:
    print(link)

(1075, 'des gesetzes')
(745, 'dieses gesetzes')
(218, 'überleitungsgesetzes')
(192, 'reichsknappschaftsgesetzes')
(128, 'angestelltenversicherungsgesetzes')
(112, 'diesem gesetz')
(108, 'arbeiterrentenversicherungs-neuregelungsgesetzes')
(94, 'des[n]gesetzes')
(87, 'dieses[n]gesetzes')
(87, 'angestelltenversicherungs-neuregelungsgesetzes')
(68, 'dieses gesetz')
(67, 'erneuerbare-energien-gesetzes')
(66, 'wohnungsbaugesetzes')
(66, 'des[n]landesnaturschutzgesetzes')
(52, 'investmentgesetzes')
(51, 'landesnaturschutzgesetzes')
(39, 'zweiten gesetzes')
(36, 'des[n]angestelltenversicherungs-neuregelungsgesetzes')
(35, 'kraft gesetzes')
(35, 'des[n]angestelltenversicherungsgesetzes')
(31, 'knappschaftsrentenversicherungs-neuregelungsgesetzes')
(27, '10-gesetzes')
(22, 'verwaltungskostengesetzes')
(22, 'ausführungsgesetzes')
(21, 'wassergesetzes')
(21, 'bundesimmissionsschutzgesetzes')
(19, 'sozialversicherungsangleichungsgesetzes')
(19, 'saarländischen gesetzes')
(19, 'des[n]reichsknappscha

In [9]:
Gesetz.collected_laws["BGB"].print_links()

GWB        - $ 99 Nummer 1 bis 3 des Gesetzes gegen[n]Wettbewerbsbeschränkungen, so ist abweichend von Absatz 1[n]1.[n][n]eine
BGBEG      - $ 306 und 307 bis 309 dieses Gesetzes sowie Artikel 46b des Einführungsgesetzes[n]zum Bürgerlichen Gesetzbuche
BGBEG      - $ 1 Absatz 2 und 3 des Einführungsgesetzes zum[n]Bürgerlichen Gesetzbuche über die Pflicht zur Information
BGBEG      - $ 1 Absatz 1 Satz 1 Nummer 4 des Einführungsgesetzes zum Bürgerlichen[n]Gesetzbuche informiert hat.[n]
KAGB       - $ 1 Absatz 4 des Kapitalanlagegesetzbuchs und mit anderen handelbaren Wertpapieren, Devisen,[n]Derivaten
KAGB       - $ 305 Absatz 1 bis 6 des[n]Kapitalanlagegesetzbuchs ein Widerrufsrecht zusteht.[n]
BGBEG      - $ 1 Absatz 1 Satz 1 Nummer 1, 4, 5, 11 und 12 des Einführungsgesetzes zum Bürgerlichen Gesetzbuche,[n]unmittelbar
BGBEG      - $ 1 Absatz 2 Satz 1 Nummer 1 des Einführungsgesetzes zum Bürgerlichen Gesetzbuche[n]oder eine andere eindeutige
BGBEG      - $ 2 Absatz 1 des Einführungsgesetz

In [10]:
import pickle
with open("pickles/laws_links.pickle", "wb") as fp:   #Pickling
    pickle.dump(Gesetz.collected_laws, fp)