<a href="https://colab.research.google.com/github/scarfboy/wetsuite-dev/blob/main/notebooks/extras/extras_find_references.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# (only) in colab, run this first to install wetsuite from (the most recent) source.   For your own setup, see wetsuite's install guidelines.
!pip3 install -U --no-cache-dir --quiet https://github.com/scarfboy/wetsuite-dev/archive/refs/heads/main.zip

# Purpose of this notebook



Seeing how well you can extract references to laws and jurisprudence from relatively free-form text.

To support that, there is also [references_lawnames](references_lawnames.ipynb) extracting the names of laws, including less-official references in real-world use.

## What is our domain?


There will be references between documents like national law, EU law, policy, jurisprudence, and other official publications.

Such references rae fairly unambiguous to the pragmatic reader, and reasonably so to a mechanical reader.

Extracting such references may be useful to varied tasks, 
such as finding related documents by the references they share use, 
determine the topics a document covers, 
or the authority it references, and thereby perhaps intent.


Identifiers like ECLI, LJN, and CELEX should prove fairly easy to isolate, and should be unambiguous, being  (with footnotes).

There are also names, like `Wet openbaarheid van bestuur`, that are _usually_ unambigious references. That's BWBR0005252, also known as Wob.

There are also references into parts of these, like `Artikel 10, tweede lid, aanhef en onder e van de. Wet openbaarheid van bestuur`.




### References into parts

There are also textual references like `Artikel 10, tweede lid, aanhef en onder e van de. Wet openbaarheid van bestuur`
or `hoofdstukken 6 tot en met 8 van de Awb`.

Such references are fairly brief and clear due to various preferences mentioned in in Hoodstuk 3 Aanwijzingen voor de regelgeving,
and in particular [§ 3.3 Aanwijzingen voor de regelgeving](https://wetten.overheid.nl/BWBR0005730/2022-04-01/#Hoofdstuk3_Paragraaf3.3)

Yet in practice they are also somewhat messier, because this isn't formalized, and in the end it is peope who type these.
Law-to-law references tend to be pretty good, but local regulations less so, 
probably for the practical reason you would double-and-triple check one more than the other. 


should be relatively uniformly formatted, so recognizble.

With some extra work we could extract the text being referred to (e.g. to show in the sidelines) - or preferably some representation of the selection as you are allowed to pick a subset of parts.

https://wetten.overheid.nl/BWBR0005730/2022-04-01/#Hoofdstuk3



That law e.g. mentions
* "Indien bij het ontwerpen van een bepaling een sluitende, maar ingewikkelde formulering is gevonden, dient steeds te worden nagegaan of het niet eenvoudiger kan. Ook dient men bedacht te zijn op het weglaten van overbodige woorden. Dus bijvoorbeeld niet ‘Het bepaalde in het tweede lid van artikel 5 is van toepassing’, maar ‘Artikel 5, tweede lid, is van toepassing’."

* How to resolve shortened, relative references (e.g. different article of a recently mentioned law)

* "De verwijzing naar een regeling wordt zo mogelijk verbijzonderd tot een verwijzing naar artikelen."

* "Indien dit de duidelijkheid van de verwijzing vergroot, wordt de verwijzing naar een artikel verbijzonderd tot een verwijzing naar een onderdeel van het artikel."

* "Afkortingen worden alleen gebruikt indien dit redelijkerwijs niet te vermijden is. Bij gebruik ervan worden zij in de begripsbepalingen opgenomen."

Note that there is contextual brevity that is harder to resolve mechanically - see e.g [Aanwijzing 3.27 Aanwijzingen voor de regelgeving](https://wetten.overheid.nl/jci1.3:c:BWBR0005730&hoofdstuk=3&paragraaf=3.3&aanwijzing=3.27&z=2022-04-01&g=2022-04-01)


### On leftover ambiguity

It is one thing to _detect_ that there is such a reference present.

...and another thing entirely to find what exactly it is to,
because there are plenty of deviations, 
like abbreviated names,
names that are non-unique prefixes of others,
what year the reference was made in and what revision that implies,
and other such issues.

In practice, the complexity and completeness of such references lies on a sliding scale, of 'how hard do you want to try and how much fuzziness and mistakes will you accept?'


If you care for more detail on that, and some solution to resolve references regardless, read things like [This bachelor thesis](https://theses.liacs.nl/pdf/2020-2021-StrijkerJLS.pdf) (and [its code](https://github.com/Strijkerr/BachelorThesis)) and things it mentions, including _M van Opijnen et al. (2015) "[Beyond the Experiment: the eXtendable Legal Link eXtractor](https://www.google.com/search?q=Beyond%20the%20Experiment%3A%20the%20eXtendable%20Legal%20Link%20eXtractor)"_






### Some practical notes

* References would be referring to the version valid at the time of reference, though that should be resolvable



* It is useful to recognize _some_ things by document title, or less-formal but common name, which themselves can be learned e.g. from links with free-form text.
  * This may work decently for laws, less so for policy or jurisprudence. 
    * Say, "Rensing/Polak II" is fairly unambiguous (even though it's not ECLI:NL:HR:2005:AT4537's name) 
    * That said, there are also various links that will be named "Besluit", or another name that is unique only within that document and not something we should learn generally

* there are what you might short references to common and well-known laws shared throughout the community - and references to them that are what you might call global aliases
  * Awb
* ...but also what you might call aliases local to the scope of a document, e.g. "the European Convention on Human Right and Fundamental Freedoms (hereinafter 'the Convention')"
  * which are important if you want to resolve "article 6 of the Convention"


* Some of the data we have is marked up, meaning there are links that are to a formal identifier, and have a less-formal name. 
  * for example, find `extref` tags in BWB and CVDR's XML form

* We also just have text that happens to be references.

* perhaps the most important is actually that it is often not clear where the reference ends. A simple example


* we have various names are less unique than full names - e.g. [ECLI:NL:PHR:2022:1043](https://linkeddata.overheid.nl/front/portal/spiegel-lijstweergave?id=http%3A%2F%2Flinkeddata.overheid.nl%2Fterms%2Fjurisprudentie%2Fid%2FECLI%3ANL%3APHR%3A2022%3A1043) refers to [Stb. 2001, 580](https://zoek.officielebekendmakingen.nl/stb-2001-580.html), which may be _unambiguously_ called "Wet van 6 december 2001 tot herziening van het procesrecht voor burgerlijke zaken, in het bijzonder de wijze van procederen in eerste aanleg", but will probably be called something like "herziening procesrecht"

* You could look for very specific text patterns, but things like regexps are likely to break under even minor variation
  * something like [PEG](https://en.wikipedia.org/wiki/Parsing_expression_grammar)s are preferable



* Not all references hade the same function. Consider "Commission Directive 2014/110/EU of 17 December 2014 amending Directive 2004/33/EC as regards ..." or "The substantive provisions of Directive 2004/33/EC were not affected by its amendment by Directive 2014/110/EU ..." - it would not be hard to take out both references, but it is is up to you to notice that in terms of interpretation, one is referred to, and the other is only mentioned for completeness, or to decide there is a difference between mentions, supporing references, etc.



In [14]:
import pprint, textwrap
from importlib import reload

import wetsuite.helpers.patterns
reload( wetsuite.helpers.patterns )

for test in [
    #'artikel 5:9, aanhef en onder b, Awb',
    #'artikel 8, aanhef en onder c, Wet bescherming persoonsgegevens (Wbp).',
    #'artikel 10, tweede lid, aanhef en onder e, van de Wob',
    #"artikel 4, tweede lid, aanhef en onder d, van het reglement van orde voor de ministerraad",
    #"Artikel 10, tweede lid, aanhef en onder e van de. Wet openbaarheid van bestuur",
    #"artikel 6:80 lid 1 aanhef en onder b BW",
    #'artikel 4, aanhef en onder d en g, van de standaardvoorwaarden',
    #'artikel 3.3, zevende lid, aanhef en onder i, Woo',
    #'artikel 15, aanhef en onder a of c (oud) RWN',

    '  artikel 81q lid 3c Gemeentewet  ',
    #'artikel 4:25, 4:35 van de Awb en artikel 10 van de ASV',
    #'Wabo, art. 2.12, eerste lid, aanhef en onder a, sub 1\xBA',
    #'artikel 79, aanhef en onder 6\xBA',
    #'artikel 3.3, zevende lid jo. vijfde lid, aanhef en onder i, Woo',
    #'artikel 142, eerste lid, aanhef en onder b (en derde lid), van het Wetboek van Strafvordering',
    'artikel 2, eerste, tweede, vijfde, en zesenzestigste lid',
    #'art. 166 lid 1 in verbinding met art. 353 lid 1 Rv',

    # '(Art. 81 RO)',
    # '(als bedoeld in art. 22 Rv.)',
    # 'artikel 166 Rv',
    # 'artikel 3:303 BW',
    # 'artikel 22 Rv',
    # 'artikel 4, tweede lid, aanhef en onder d, van het reglement van orde voor de ministerraad',
    # 'artikel 5:9, aanhef en onder b, Awb',
    # 'artikel 8, aanhef en onder c, Wet bescherming persoonsgegevens (Wbp)',
    # 'artikel 10, tweede lid, aanhef en onder e, van de Wob',
    # 'artikel 4, tweede lid, aanhef en onder d, van het reglement van orde voor de ministerraad',
    # 'Artikel 10, tweede lid, aanhef en onder e van de. Wet openbaarheid van bestuur',
    # 'artikel 6:80 lid 1 aanhef en onder b BW',
    # 'artikel 142, eerste lid, aanhef en onder b (en derde lid), van het Wetboek van Strafvordering',
    # 'artikel 4, aanhef en onder d en g, van de standaardvoorwaarden',
    # 'artikel 3.3, zevende lid, aanhef en onder i, Woo',
    # 'artikel 3.3, zevende lid jo. vijfde lid, aanhef en onder i, Woo',
    # 'artikel 79, aanhef en onder 6\xBA',
    # 'artikel 15, aanhef en onder a of c (oud) RWN',
    # 'Wabo, art. 2.12, eerste lid, aanhef en onder a, sub 1\xBA',
    # 'artikel 2, eerste, tweede, en vijfde lid, gestelde eisen voldoen. (Artikel 3, eerste lid, van de Tabaks- en rookwarenwet)',
    # 'artikel 2, eerste, tweede, vijfde, even zesenzestigste lid',


    #'LJN: AO7817, NJ 2005, 270',
    #'LJN: BO6106',
    #'LJN: ZC2793, NJ 1999, 685',
    #'LJN: AW2089, NJ 2006, 327',
]:
    #print()
    print()
    print( '=== %r ==='%test )
    matches = wetsuite.helpers.patterns.find_nonidentifier_references( test, debug=1 )
    for match in matches:
        #print( match )
        print('Matched: %r'%match['text'])
        #print('Details:')
        for k, v in match['details'].items():
            print( '    %20r:  %-r'%(k, v) )


=== '  artikel 81q lid 3c Gemeentewet  ' ===
SOFAR      [ARTIKEL 81Q] lid 3c Gemeentewet
MATCHED type=lid                 :   'lid 3c'                   1 chars after 
SOFAR      [ARTIKEL 81Q LID 3C] Gemeentewet
Matched: ''
               'artikel':  '81q'
                   'lid':  '3c'
               'lid_num':  []

=== 'artikel 2, eerste, tweede, vijfde, en zesenzestigste lid' ===
SOFAR      [ARTIKEL 2], eerste, tweede, vijfde, en zesenzestigste lid
MATCHED type=lid                 :   'eerste, tweede, vijfde, en zesenzestigste lid'  2 chars after 
SOFAR      [ARTIKEL 2, EERSTE, TWEEDE, VIJFDE, EN ZESENZESTIGSTE LID]
Matched: 'eerste, tweede, vijfde, en zesenzestigste'
               'artikel':  '2'
                   'lid':  'eerste, tweede, vijfde, en zesenzestigste'
               'lid_num':  [1, 2, 5, 66]


In [1]:
# Getting some names


***LiDo*** extracts a number of such references. For example, for
  https://linkeddata.overheid.nl/document/ECLI:NL:PHR:2011:BP5608
resolves law references like 
- (Art. 81 RO)
- (als bedoeld in art. 22 Rv.)
- art. 166 lid 1 in verbinding met art. 353 lid 1 Rv
- artikel 166 Rv
- artikel 3:303 BW
- artikel 22 Rv

- Wetboek van Burgerlijke Rechtsvordering, Artikel 353
- Wetboek van Burgerlijke Rechtsvordering, Artikel 22
- Wetboek van Burgerlijke Rechtsvordering, Artikel 166
- Wet op de rechterlijke organisatie, Artikel 81
- Burgerlijk Wetboek Boek 3, Artikel 303

and jurisprudence references (LJNs can be looked up to ELCI)
- LJN: AO7817, NJ 2005, 270
- LJN: BO6106
- LJN: ZC2793, NJ 1999, 685
- LJN: AW2089, NJ 2006, 327

- ECLI:NL:HR:2011:BP5608 - Hoge Raad, 27-05-2011 / 09/04566
- ECLI:NL:HR:2011:BO6106 - Hoge Raad, 28-01-2011 / 10/00698
- ECLI:NL:HR:2006:AW2089 - Hoge Raad, 09-06-2006 / C05/082HR
- ECLI:NL:HR:2004:AO7817 - Hoge Raad, 09-07-2004 / C03/079HR
- ECLI:NL:HR:1998:ZC2793 - Hoge Raad, 27-11-1998 / 9016 (C97/081)
- ECLI:CE:ECHR:1986:1017JUD000953281 - Europees Hof voor de Rechten van de Mens, 17-10-1986 CASE OF REES v. THE UNITED KINGDOM 9532/81

If you want that as data, consider 
http://linkeddata.overheid.nl/service/get-links?ext-id=ECLI:NL:PHR:2011:BP5608&output=xml
though as 
https://linkeddata.overheid.nl/front/portal/services 
notes, this is not part of public LiDo so you'll need to request an account first







For example, 
- "artikel 4, tweede lid, aanhef en onder d, van het reglement van orde voor de ministerraad" would give something like
   - BWBR0006501 
   - https://wetten.overheid.nl/jci1.3:c:BWBR0006501&artikel=4    or
     https://wetten.overheid.nl/jci1.3:c:BWBR0006501&paragraaf=2&artikel=4
   - jci1.3:c:BWBR0006501&paragraaf=2&artikel=4
   - ['4', 
      '2', 
      'Te dien einde beraadslaagt en besluit de raad onder meer over:', 
      'het bekendheid geven aan beleidsvoornemens in welke vorm dan ook, die van invloed kunnen zijn op de positie van het kabinet, '
      'of die belangrijke financiële consequenties kunnen hebben, benevens over beleidsvoornemens van een minister die het beleid van '
      'andere ministers kunnen raken en waarover het bereiken van overeenstemming niet mogelijk is gebleken;'
     ]

- Internal references, e.g. BWBR0004302's artikel 3, lid 1 has "artikel 2, eerste, tweede, en vijfde lid" which in that context ought to give
   - ['2', 
      ['1', '2', '5'], 
      ['Bij of krachtens algemene maatregel van bestuur worden in het belang van de volksgezondheid eisen gesteld aan tabaksproducten, ',
       'elektronische dampwaar, nicotinehoudende vloeistof en niet-nicotinehoudende vloeistof met betrekking tot maximumemissieniveaus ',
       'en ingrediënten en worden technische eisen gesteld, en kunnen methoden van onderzoek worden aangewezen die bij uitsluiting ',
       'beslissend zijn voor de vaststelling of met betrekking tot een product al dan niet aan de daaraan gestelde eisen is voldaan.,

              Bij of krachtens algemene maatregel van bestuur worden in het belang van de volksgezondheid eisen gesteld aan de verpakkingseenheid en de buitenverpakking van tabaksproducten en aanverwante producten. De eisen hebben betrekking op:

          a. de aanduidingen op verpakkingseenheden en buitenverpakkingen;

          b. de hoeveelheid of het aantal stuks dat is verpakt;

          c. de presentatie van het product;

          d. de sluiting, vorm, afmetingen en materiaal van de verpakkingseenheid of de buitenverpakking; en

          e. andere elementen van de verpakkingseenheid en de buitenverpakking die gebruikt kunnen worden om een onderscheid te maken tussen de verschillende merken van een tabaksproduct of een aanverwant product.

       'De verpakkingseenheid van elektronische dampwaar bevat een bijsluiter. Onze Minister stelt nadere regels over de inhoud van de bijsluiter.'
      ]
     ]


In [4]:
## Looking for clearer cases

In [3]:
from wetsuite.helpers.patterns import reference_parse
reference_parse('artikel 5:9, aanhef en onder b, Awb')

MATCHED type=aanhefonder         :   'aanhef en onder b'        2 chars after 


[{'text': 'artikel 5:9, aanhef en onder b',
  'details': OrderedDict([('artikel', '5:9'),
               ('aanhefonder', 'aanhef en onder b')])}]

### Going further



## Learning from LiDo


https://linkeddata.overheid.nl/front/portal/spiegel-lijstweergave?id=http%3A%2F%2Flinkeddata.overheid.nl%2Fterms%2Fjurisprudentie%2Fid%2FECLI%3ANL%3APHR%3A2011%3ABP5608&callback=&dates=&fields=&fq=%7B%21tag%3Dlink_richting%7Dlink_richting%3A%22inkomend%22&facet.field=%7B%21ex%3Dlink_richting%7Dlink_richting&facet.field=%7B%21ex%3Dobj_type%7Dobj_type&facet.field=%7B%21ex%3Dobj_organisatie_groep%7Dobj_organisatie_groep&facet.field=%7B%21ex%3Dobj_organisatie%7Dobj_organisatie&facet.field=%7B%21ex%3Dlink_type%7Dlink_type&facet.field=%7B%21ex%3Dobj_jaar%7Dobj_jaar



In [None]:


import urllib.parse

urllib.parse.parse_qs('id=http%3A%2F%2Flinkeddata.overheid.nl%2Fterms%2Fjurisprudentie%2Fid%2FECLI%3ANL%3APHR%3A2011%3ABP5608&callback=&dates=&fields=&fq=%7B%21tag%3Dlink_richting%7Dlink_richting%3A%22inkomend%22&facet.field=%7B%21ex%3Dlink_richting%7Dlink_richting&facet.field=%7B%21ex%3Dobj_type%7Dobj_type&facet.field=%7B%21ex%3Dobj_organisatie_groep%7Dobj_organisatie_groep&facet.field=%7B%21ex%3Dobj_organisatie%7Dobj_organisatie&facet.field=%7B%21ex%3Dlink_type%7Dlink_type&facet.field=%7B%21ex%3Dobj_jaar%7Dobj_jaar')







