In [24]:
import spacy
from spacy.matcher import Matcher
from collections import defaultdict

nlp = spacy.load("nl_core_news_lg")

matcher = Matcher(nlp.vocab)
pattern = [[{'IS_TITLE': True, 'OP': '+'},
            {'IS_LOWER': True, 'OP': '?'},
            {'IS_LOWER': True, 'OP': '?'},
            {'IS_TITLE': True, 'OP': '+'}
           ]]

pattern_id = "proper_names_greedy"
matcher.add(pattern_id, pattern)

def match_proper_names(matcher, nlp_doc, text):
    matches = matcher(nlp_doc)
    spans_matched = []
    ix = 0
    for match_id, start, end in matches:
        start_char = nlp_doc[start].idx
        end_char = nlp_doc[end-1].idx + len(nlp_doc[end-1].text)
        surface_form = text[start_char:end_char]
        spans_matched.append({
            "ID": f"spacy_matcher_nl_{ix}",
            "surfaceForm": surface_form,
            "category": "PER",
            "locationStart": start_char,
            "locationEnd": end_char,
            "method": "spacy_matcher_nl"
        })
        ix += 1
    
    return spans_matched



In [25]:
text = """
KAREL V, keizer van Duitschland, koning van Spanje, graaf van Holland, de IIe van dien naam, werd te Gent den 24sten Februarij 1500 geboren. Hij was de oudste zoon van Filips I, koning van Spanje en graaf van Holland, en van Johanna, tweede dochter van Ferdinand, koning van Arragon, en van Isabella, koningin van Kastilie en Leon. In de Nederlanden opgevoed, werd hij toevertrouwd aan de leiding van Willem van Croy, heer van Chievres, en genoot hij het onderwijs van Adriaan Floriszoon, later paus Adriaan VI. De zorg, door beide mannen aan hem besteed, was eene vergoeding voor het gemis der ouderlijke hulp, daar hem zijn vader reeds in 1506 ontviel, en zijne moeder, door den onverwachten dood van haren echtgenoot, krankzinnig was geworden. Zijn grootvader van moeders zijde, in 1516 overlijdende, erfde Karel de kroonen van Arragon en Kastilie met hare uitgebreide bezittingen in de Nieuwe wereld, als ook de koningrijken van Napels en Sicilie, en het eiland Sardinie. Hij nam toen den titel van koning van Spanje aan, waar de vermaarde Ximenes tijdelijk het bewind voerde en door zijn voortreffelijk bestuur, ofschoon met ondank beloond, zooveel tot de welvaart van dat land en de glorie van Karel toebragt. Met den dood van keizer Maximiliaan, in 1519, werd Karel tot keizer van het Duitsche rijk verkozen, en verliet hij Spanje, werwaarts hij twee jaren te voren vertrokken was, om bezit te nemen van eene kroon, die hem door Frans I, koning van Frankrijk, betwist was. Waar wij geroepen zijn het levensberigt van eenen vorst als Karel V zamen te stellen, staan wij verlegen, hoe ons van die taak op eene geschikte wijze te kwijten. In het eng bestek toch van eenige bladzijden, ons daartoe afgestaan, is het onmogelijk een juist overzigt te geven van zijn leven, omdat de gebeurtenissen des tijds, waarover wij hier in het breede niet kunnen uitwijden, daarmede in het naauwste verband staan. Zonder daarom van al die gebeurtenissen te gewagen, die wel onder Karel's bestuur en door zijn toedoen voorvielen, doch waaraan hij niet altijd een werkzaam deel had, zullen wij trachten een zoo beknopt en naauwkeurig mogelijk berigt over hem daar te stellen. Het was wel niet te verwonderen dat er weldra een oorlog tusschen Karel en Frans I, de beide mededingers naar de Duitsche keizerskroon, uitbrak. In 1521 werden de vijandelijkheden begonnen, die meestal ongelukkig voor de Fransche wapenen afliepen. Een congres te Calais gehouden, diende slechts om de gemoederen nog meer te verhitten, en gaf aan Hendrik VIII, koning van Engeland, een voorwendsel om zich voor Karel te verklaren, die eerst door paus Leo X en daarna door zijnen leermeester, paus Adriaan, die zijne verkiezing aan hem te danken had, krachtig ondersteund werd. In den slag bij Passau, in 1525 tusschen de beide legers voorgevallen, verklaarde zich de overwinning voor Karel. De Fransche vorst werd gevangen genomen en, omdat hij de hem gestelde vernederende voorwaarden, tot terugverkrijging zijner vrijheid, verwierp, naar Spanje gevoerd, werwaarts hij niet wederkeerde, dan na afstand van zijne kroon, ten behoeve van zijnen zoon, te hebben gedaan, waarvan het verdrag den 14den Januarij 1526 geteekend werd. De uitgebreide magt van Karel was thans aan vele vorsten van Europa een doorn in het oog. Clemens VII, thans paus van Rome, stelde zich aan het hoofd van een verbond tusschen de voornaamste staten van Italie, en daarom het Heilig Verbond genaamd. Weldra had Karel nu de handen in Italie vol, en ook daar werden zijne wapenen met eene glansrijke uitkomst bekroond."""

nlp_doc = nlp(text)
matches = match_proper_names(matcher, nlp_doc, text)
for m in matches:
    print(m)

{'ID': 'spacy_matcher_nl_0', 'surfaceForm': 'Gent den 24sten Februarij', 'category': 'PER', 'locationStart': 102, 'locationEnd': 127, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_1', 'surfaceForm': 'Filips I', 'category': 'PER', 'locationStart': 169, 'locationEnd': 177, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_2', 'surfaceForm': 'Kastilie en Leon', 'category': 'PER', 'locationStart': 315, 'locationEnd': 331, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_3', 'surfaceForm': 'In de Nederlanden', 'category': 'PER', 'locationStart': 333, 'locationEnd': 350, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_4', 'surfaceForm': 'Willem van Croy', 'category': 'PER', 'locationStart': 402, 'locationEnd': 417, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_5', 'surfaceForm': 'Adriaan Floriszoon', 'category': 'PER', 'locationStart': 470, 'locationEnd': 488, 'method': 'spacy_matcher_nl'}
{'ID': 'spacy_matcher_nl_6', 'surfaceForm': 'Arragon en Kastilie', 