In [1]:
# spacy
import spacy
#from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups


# nltk
from nltk.stem.snowball import SnowballStemmer

In [2]:
nlp = spacy.load("nl_core_news_sm")

In [3]:
# (Deroo, 2022): https://www.eoswetenschap.eu/natuur-milieu/ondiepe-waters-geheimzinnige-gronden

text = """
Rijst is één van de meest klimaatonvriendelijke gewassen ter wereld. Rijst telen met minder water helpt, maar de processen onder de grond zijn zo complex dat niemand voorspellingen kan doen. Ik keek op atomair niveau in rijstbodems uit Bangladesh en Italië.
Het prijkt in de top drie van de meest geproduceerde gewassen ter wereld. Het is hét basisvoedsel bij uitstek voor minstens de helft van de wereldbevolking. Maar daarnaast is rijst helaas ook één van de meest klimaatonvriendelijke gewassen. In bevloeide bodems worden immers de micro-organismen actief die verantwoordelijk zijn voor de productie van het hardnekkige broeikasgas methaan. Maar liefst 9 procent van de wereldwijde, van de mens afkomstige methaanuitstoot ontsnapt uit velden waarop rijst geteeld wordt. Een allesbehalve wenselijke situatie dus, als we op een verantwoorde manier sushi, nasi goreng of risotto willen blijven eten.
Gelukkig bieden de zogenaamde waterbesparende irrigatiemethodes soelaas. Uit veelvuldig onderzoek blijkt immers dat niet alleen het waterverbruik, maar ook de uitstoot van methaan drastisch afneemt wanneer rijstvelden van tijd tot tijd gedraineerd worden. Dat deze teeltmethode in opmars is, hoeft dan ook niet te verbazen.
Minder waterverbruik én minder broeikasgasemissies? Niet voor niets krijgen waterbesparende irrigatietechnieken in de rijstteelt meer en meer aandacht.
Begrijpen om te voorspellen
Hoevéél de uitstoot van dergelijke broeikasgassen juist verandert bij minder water, hangt echter af van een hele resem factoren die te maken hebben het bodemtype, het weer en hoe de landbouwer het veld beheert. Om de exacte klimaatimpact van een bepaalde irrigatiemethode in een bepaalde setting zonder (nieuwe) metingen te kunnen inschatten, moeten we dus met heel wat rekening houden. Daarom werken wetenschappers al decennialang aan de ontwikkeling van bodemmodellen. Die kunnen voorspellingen doen van de hoeveelheid broeikasgasemissies, de gewasopbrengst of de bodemvruchtbaarheid, net zoals een weermodel het weer van morgen kan voorspellen.
Onderzoek naar fundamentele kennis over bodemprocessen heeft niet enkel letterlijk, maar ook figuurlijk heel wat voeten in de aarde
Hiervoor is wel heel wat inzicht nodig in de processen die zich in de bodem afspelen. We willen dus ook graag weten waaróm rijstteelt met minder water minder belastend is voor het klimaat. En laat dat nu net de moeilijkheid zijn, want in bodems van rijstvelden spelen zich zoveel complexe processen tegelijk en op dezelfde plaats af, dat het bijna onmogelijk is om metingen te doen van individuele omzettingen van cruciale bodemelementen, en zo hun werkingsmechanisme te ontrafelen. Onderzoek naar fundamentele kennis over bodemprocessen heeft niet enkel letterlijk, maar ook figuurlijk heel wat voeten in de aarde.
Rijstteelt met minder water heeft een lagere methaanuitstoot. Waarom dit zo is, is grotendeels een vraagteken, want wat in de bodem gebeurt is lastig om te meten.
De mysterieuze wereld onder onze voeten
Toch heb ik geprobeerd om enkele van deze puzzelstukken te leggen tijdens mijn doctoraatsonderzoek. In bodems van rijstvelden in de Gangesdelta in Bangladesh en de delta van de rivier Po in Italië – twee belangrijke rijstproducerende regio’s – zocht ik uit wat nu net gebeurt met drie doorslaggevende bodemprocessen bij waterbesparende irrigatie.
Om iets beter in deze bodems te kunnen “kijken”, maakte ik gebruik van minuscule verschillen in de atoomkern van belangrijke bodemnutriënten. Chemische elementen, zoals koolstofatomen, beschikken immers niet altijd over hetzelfde aantal neutrale deeltjes (neutronen). Het aandeel van deze verschillende atoomversies – ook wel “stabiele isotopen” genoemd – kan van nature verschillen voor versus na het doorlopen van een proces. Door dit principe uit te buiten, of door moleculen met gekende atoomkern toe te voegen, kon ik individuele koolstof- of stikstofatomen in de bodem tóch traceren en het werkingsmechanisme van deze processen enigszins ophelderen.
Stapvoets vooruit
Op die manier heb ik ten eerste het lot van methaan zelf in de bodem proberen doorgronden. Het feit dat methaanproducerende bodembacteriën wegkwijnen in minder natte bodems speelt sowieso een grote rol bij de lage klimaatimpact van waterbesparende irrigatie – daar waren wetenschappers het al over eens. Uit mijn onderzoek blijkt dat micro-organismen die methaan afbreken vooraleer het naar de atmosfeer ontsnapt (en ons dus helpen om rijst klimaatvriendelijker te maken) tegelijk actiever lijken te worden in rijstvelden met minder water. Hoopvolle aanwijzingen – ondanks de onzekerheid, want er was duidelijk ook ruimte voor verbetering wat de onderzoeksmethode betreft.
What happens in the soil, stays in the soil? Niet als we met deze fundamentele info landbouwkundige of klimatologische voorspellingen kunnen verbeteren. Metingen van bodemprocessen voor verschillende irrigatietechnieken zijn dan ook broodnodig. 
Verder nam ik ook de afbraak van koolstof in de bodem – de bron van methaan – onder de loep. Wat blijkt? Een aanzienlijk deel van deze bodemkoolstof lost, na het inwerken van gewasresten, op in het bodemvocht door interactie met ijzer, waardoor de methaanproducerende micro-organismen er meer vat op zouden kunnen hebben. Gelukkig blijkt dit laatste mee te vallen: die opgeloste koolstof wordt daarna niet volledig verder afgebroken tot broeikasgassen zoals methaan. Bovendien is dit proces al bij al minder sterk bij waterbesparende irrigatie.
Omdat ook de gewasopbrengst niet in gevaar mag komen, keek ik tot slot naar de beschikbaarheid van stikstof (meer bepaald ammonium: de voornaamste voedingsstof voor de rijstplant). In bodems van rijstvelden zit het overgrote deel van die voedingsstoffen namelijk “vast” binnenin kleimineralen – onbereikbaar voor de rijstplant. Mijn experimenten toonden aan dat dit fenomeen, dat allesbepalend is voor de stikstofbeschikbaarheid voor de rijstplant, te maken heeft met hoeveel stikstof wel beschikbaar is, en dat het irrigatiebeheer hier dan weer geen grote rol bij speelt
Hoe ver van ons bed deze processen ook mogen klinken – in bodems van rijstvelden, en bijgevolg bij de teelt en broeikasgasuitstoot van rijst, zijn ze stuk voor stuk cruciaal. Dankzij dit onderzoek en dat van collega-wetenschappers worden gaandeweg kleine maar belangrijke stapjes uit de duisternis gezet. Bovendien was mijn ontdekkingstocht ook leerzaam om de gebruikte onderzoeksmethodes verder te verbeteren en in de toekomst nog dieper kunnen te graven. Zo zullen we de klimaatwinst of gewasopbrengst van nieuwe teeltmethoden op termijn nauwkeuriger kunnen voorspellen, met klimaatvriendelijkere rijst als resultaat.
"""


text = """
Onderzoekers van het Koninklijk Belgisch Instituut voor Natuurwetenschappen konden de krokodillenmummies bestuderen. ‘Een van de mooiste vondsten die ik al onder ogen kreeg’, zegt archeozoöloge Bea De Cupere (KBIN). De oude Egyptenaren offerden krokodillen tijdens rituelen voor de god Sobek.
Archeologen van de Universiteit van Jaén legden in 2019 een graftombe met krokodillenmummies  bloot in Qubbat al-Hawā, een site bij de stad Aswan in het zuiden van Egypte. De kleine tombe bevatte vijf skeletten en vijf schedels van grote krokodillen. Ze ligt naast zes andere graven met belangrijke mensen uit de regio, die alle dateren van het pre-ptolemeïsche tijdperk, vóór 304 v. Chr.
De krokodillen zijn wellicht gebruikt tijdens rituelen voor de Egyptische god Sobek, de god van het water en van de vruchtbaarheid, vaak afgebeeld met een krokodillenkop. Kom Ombo, op slechts 50 kilometer afstand, was een belangrijk centrum voor krokodillenverering.
‘Er zijn in Egypte meer dan twintig begraafplaatsen met krokodillenmummies bekend, maar het is bijzonder om tien goed bewaarde krokodillenmummies bij elkaar te vinden in een graf dat nog niet is verstoord’, zegt De Cupere. ‘Bij de meeste mummies die eind 19de en begin 20ste eeuw door musea zijn verzameld, vaak jonge dieren, weten we niet precies waar ze vandaan komen.’
Bij sommige krokodillen van Qubbat al-Hawā vonden de archeologen sporen van linnen, palmbladeren en touw, aanwijzing dat ze ooit waren ingepakt. Maar de ‘verpakking’ moet zijn weggerot, en de krokodillen waren ook niet ingesmeerd met grote hoeveelheden pek of bitumen, wat in recentere periodes gangbaar was. Een mooi toeval, want daardoor konden de onderzoekers deze exemplaren uitzonderlijk van kop tot teen meten en bestuderen.
De kleinste krokodil is 1,8 meter lang, de grootste 3,5 meter. En ze behoren tot twee verschillende soorten: ofwel de nijlkrokodil ofwel de West-Afrikaanse krokodil. Opmerkelijk is dat drie skeletten vrij volledig waren, bij de twee andere ontbraken heel wat delen. ‘De krokodillen zijn eerst elders begraven, mogelijk in zandkuilen’, zegt De Cupere. ‘Zo konden de krokodillen op een natuurlijke manier uitdrogen. Daarna zijn de resten opgegraven, ingepakt en verplaatst naar de tombe in Qubbat al-Hawā. Tijdens het inwikkelen en het transport moeten lichaamsdelen verloren zijn gegaan.’
Hoe vingen de Egyptenaren deze krokodillen? Uit de iconografie weten we dat krokodillen voornamelijk met netten werden gevangen. Op de krokodillen uit Qubbat al-Hawā zijn ook geen slachtsporen gevonden. Mogelijk lieten de oude Egyptenaren ze verdrinken, stikken, of oververhitten door ze lange tijd aan de zon bloot te stellen.
Eén krokodil was zo goed bewaard gebleven dat de gastrolieten nog aanwezig waren. Dat zijn stenen in de ingewanden die krokodillen helpen om in balans te blijven in het water. De ‘maagstenen’ wijzen erop dat de krokodil niet werd opengesneden om de ingewanden eruit te halen.
‘De vondst geeft ons een mooie inkijk in hoe de Egyptenaren in die streek en in die tijd krokodillen ritueel begroeven’, aldus De Cupere. De studie staat in het vaktijdschrift PLOS ONE.
"""

In [4]:
## tokenisatie
doc = nlp(text)
for token in doc[:20]:
    print(token.text)



Onderzoekers
van
het
Koninklijk
Belgisch
Instituut
voor
Natuurwetenschappen
konden
de
krokodillenmummies
bestuderen
.
‘
Een
van
de
mooiste
vondsten


In [5]:
# stemming
stemmer = SnowballStemmer(language='dutch')
for token in text.split(" ")[:20]:
    print(token, '=>' , stemmer.stem(token))


Onderzoekers => 
onderzoeker
van => van
het => het
Koninklijk => konink
Belgisch => belgisch
Instituut => institut
voor => vor
Natuurwetenschappen => natuurwetenschapp
konden => kond
de => de
krokodillenmummies => krokodillenmummies
bestuderen. => bestuderen.
‘Een => ‘en
van => van
de => de
mooiste => mooist
vondsten => vondst
die => die
ik => ik
al => al


In [6]:
# zinsegmentatie
doc = nlp(text)
for sent in doc[:50].sents:
    print(sent.text)



Onderzoekers van het Koninklijk Belgisch Instituut voor Natuurwetenschappen konden de krokodillenmummies bestuderen.
‘Een van de mooiste vondsten die ik al onder ogen kreeg’, zegt archeozoöloge
Bea De Cupere (KBIN).
De oude Egyptenaren offerden krokodillen tijdens rituelen voor de god Sobek.



# Keyword extraction

In [7]:
doc = nlp(text)
doc.ents

(Koninklijk Belgisch Instituut voor Natuurwetenschappen,
 Bea De Cupere,
 Archeologen van de Universiteit van Jaén legden,
 2019,
 Qubbat,
 Aswan,
 vijf,
 vijf,
 zes,
 pre-ptolemeïsche,
 304,
 Egyptische,
 50 kilometer,
 Egypte,
 twintig,
 tien,
 19de en begin,
 20ste eeuw,
 Qubbat,
 1,8 meter,
 3,5,
 twee,
 West-Afrikaanse,
 Opmerkelijk,
 drie,
 twee,
 Qubbat,
 Egyptenaren,
 Qubbat,
 Egyptenaren,
 Egyptenaren,
 PLOS,
 ONE)

In [8]:
nlp = spacy.load('nl_core_news_sm')
doc = nlp(text)
words_without_stopwords = [token.text for token in doc if not token.is_stop]

In [9]:
text_without_stopwords = ' '.join(words_without_stopwords)

print(text_without_stopwords)


 Onderzoekers Koninklijk Belgisch Instituut Natuurwetenschappen krokodillenmummies bestuderen . ‘ mooiste vondsten ogen kreeg ’ , zegt archeozoöloge Bea Cupere ( KBIN ) . oude Egyptenaren offerden krokodillen rituelen god Sobek . 
 Archeologen Universiteit Jaén legden 2019 graftombe krokodillenmummies   bloot Qubbat al-Hawā , site stad Aswan zuiden Egypte . kleine tombe bevatte vijf skeletten vijf schedels grote krokodillen . ligt naast zes graven belangrijke mensen regio , dateren pre-ptolemeïsche tijdperk , vóór 304 v. Chr. 
 krokodillen wellicht gebruikt rituelen Egyptische god Sobek , god water vruchtbaarheid , afgebeeld krokodillenkop . Kom Ombo , 50 kilometer afstand , belangrijk centrum krokodillenverering . 
 ‘ Egypte twintig begraafplaatsen krokodillenmummies bekend , bijzonder tien goed bewaarde krokodillenmummies elkaar vinden graf verstoord ’ , zegt Cupere . ‘ meeste mummies eind 19de begin 20ste eeuw musea verzameld , jonge dieren , weten komen . ’ 
 krokodillen Qubbat al

In [10]:
import yake

kw_extractor = yake.KeywordExtractor()
language = "nl"
max_ngram_size = 1
deduplication_threshold = 0.9
numOfKeywords = 20

custom_kw_extractor = yake.KeywordExtractor(lan=language, n=max_ngram_size, dedupLim=deduplication_threshold, top=numOfKeywords, features=None)
keywords = custom_kw_extractor.extract_keywords(text_without_stopwords)
for kw in keywords:
    print(kw)

('Cupere', 0.02456300358859913)
('krokodillen', 0.02630578701848584)
('Qubbat', 0.027677115207494447)
('Egyptenaren', 0.0346831723565651)
('KBIN', 0.05034447716720303)
('al-Hawā', 0.05312250516387103)
('Sobek', 0.059690320670186266)
('vijf', 0.06049328137011438)
('zegt', 0.060901269053482754)
('Koninklijk', 0.061878781454067625)
('Belgisch', 0.061878781454067625)
('Instituut', 0.061878781454067625)
('Natuurwetenschappen', 0.061878781454067625)
('Bea', 0.061878781454067625)
('Universiteit', 0.061878781454067625)
('Jaén', 0.061878781454067625)
('Aswan', 0.061878781454067625)
('krokodillenmummies', 0.06797801372507367)
('Egypte', 0.07839153148866318)
('god', 0.08263461477195749)


In [13]:
import spacy
from spacy.matcher import PhraseMatcher

nlp = spacy.load('nl_core_news_sm')

phrase_matcher = PhraseMatcher(nlp.vocab)
phrases = ['Cupere','Natuurwetenschappen']
patterns = [nlp(text) for text in phrases]

phrase_matcher.add('Cupere', None, *patterns)

doc = nlp(text)

for sent in doc.sents:
    for match_id, start, end in phrase_matcher(nlp(sent.text)):
        if nlp.vocab.strings[match_id] in ["Cupere"]:
            print(sent.text)

Onderzoekers van het Koninklijk Belgisch Instituut voor Natuurwetenschappen konden de krokodillenmummies bestuderen.
Bea De Cupere (KBIN).
’, zegt De Cupere.
‘De krokodillen zijn eerst elders begraven, mogelijk in zandkuilen’, zegt De Cupere.
‘De vondst geeft ons een mooie inkijk in hoe de Egyptenaren in die streek en in die tijd krokodillen ritueel begroeven’, aldus De Cupere.
