In [46]:
# spacy
import spacy
#from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups


# nltk
from nltk.stem.snowball import SnowballStemmer

In [47]:
nlp = spacy.load("nl_core_news_sm")

In [48]:
# (Deroo, 2022): https://www.eoswetenschap.eu/natuur-milieu/ondiepe-waters-geheimzinnige-gronden

text = """
Rijst is één van de meest klimaatonvriendelijke gewassen ter wereld. Rijst telen met minder water helpt, maar de processen onder de grond zijn zo complex dat niemand voorspellingen kan doen. Ik keek op atomair niveau in rijstbodems uit Bangladesh en Italië.
Het prijkt in de top drie van de meest geproduceerde gewassen ter wereld. Het is hét basisvoedsel bij uitstek voor minstens de helft van de wereldbevolking. Maar daarnaast is rijst helaas ook één van de meest klimaatonvriendelijke gewassen. In bevloeide bodems worden immers de micro-organismen actief die verantwoordelijk zijn voor de productie van het hardnekkige broeikasgas methaan. Maar liefst 9 procent van de wereldwijde, van de mens afkomstige methaanuitstoot ontsnapt uit velden waarop rijst geteeld wordt. Een allesbehalve wenselijke situatie dus, als we op een verantwoorde manier sushi, nasi goreng of risotto willen blijven eten.
Gelukkig bieden de zogenaamde waterbesparende irrigatiemethodes soelaas. Uit veelvuldig onderzoek blijkt immers dat niet alleen het waterverbruik, maar ook de uitstoot van methaan drastisch afneemt wanneer rijstvelden van tijd tot tijd gedraineerd worden. Dat deze teeltmethode in opmars is, hoeft dan ook niet te verbazen.
Minder waterverbruik én minder broeikasgasemissies? Niet voor niets krijgen waterbesparende irrigatietechnieken in de rijstteelt meer en meer aandacht.
Begrijpen om te voorspellen
Hoevéél de uitstoot van dergelijke broeikasgassen juist verandert bij minder water, hangt echter af van een hele resem factoren die te maken hebben het bodemtype, het weer en hoe de landbouwer het veld beheert. Om de exacte klimaatimpact van een bepaalde irrigatiemethode in een bepaalde setting zonder (nieuwe) metingen te kunnen inschatten, moeten we dus met heel wat rekening houden. Daarom werken wetenschappers al decennialang aan de ontwikkeling van bodemmodellen. Die kunnen voorspellingen doen van de hoeveelheid broeikasgasemissies, de gewasopbrengst of de bodemvruchtbaarheid, net zoals een weermodel het weer van morgen kan voorspellen.
Onderzoek naar fundamentele kennis over bodemprocessen heeft niet enkel letterlijk, maar ook figuurlijk heel wat voeten in de aarde
Hiervoor is wel heel wat inzicht nodig in de processen die zich in de bodem afspelen. We willen dus ook graag weten waaróm rijstteelt met minder water minder belastend is voor het klimaat. En laat dat nu net de moeilijkheid zijn, want in bodems van rijstvelden spelen zich zoveel complexe processen tegelijk en op dezelfde plaats af, dat het bijna onmogelijk is om metingen te doen van individuele omzettingen van cruciale bodemelementen, en zo hun werkingsmechanisme te ontrafelen. Onderzoek naar fundamentele kennis over bodemprocessen heeft niet enkel letterlijk, maar ook figuurlijk heel wat voeten in de aarde.
Rijstteelt met minder water heeft een lagere methaanuitstoot. Waarom dit zo is, is grotendeels een vraagteken, want wat in de bodem gebeurt is lastig om te meten.
De mysterieuze wereld onder onze voeten
Toch heb ik geprobeerd om enkele van deze puzzelstukken te leggen tijdens mijn doctoraatsonderzoek. In bodems van rijstvelden in de Gangesdelta in Bangladesh en de delta van de rivier Po in Italië – twee belangrijke rijstproducerende regio’s – zocht ik uit wat nu net gebeurt met drie doorslaggevende bodemprocessen bij waterbesparende irrigatie.
Om iets beter in deze bodems te kunnen “kijken”, maakte ik gebruik van minuscule verschillen in de atoomkern van belangrijke bodemnutriënten. Chemische elementen, zoals koolstofatomen, beschikken immers niet altijd over hetzelfde aantal neutrale deeltjes (neutronen). Het aandeel van deze verschillende atoomversies – ook wel “stabiele isotopen” genoemd – kan van nature verschillen voor versus na het doorlopen van een proces. Door dit principe uit te buiten, of door moleculen met gekende atoomkern toe te voegen, kon ik individuele koolstof- of stikstofatomen in de bodem tóch traceren en het werkingsmechanisme van deze processen enigszins ophelderen.
Stapvoets vooruit
Op die manier heb ik ten eerste het lot van methaan zelf in de bodem proberen doorgronden. Het feit dat methaanproducerende bodembacteriën wegkwijnen in minder natte bodems speelt sowieso een grote rol bij de lage klimaatimpact van waterbesparende irrigatie – daar waren wetenschappers het al over eens. Uit mijn onderzoek blijkt dat micro-organismen die methaan afbreken vooraleer het naar de atmosfeer ontsnapt (en ons dus helpen om rijst klimaatvriendelijker te maken) tegelijk actiever lijken te worden in rijstvelden met minder water. Hoopvolle aanwijzingen – ondanks de onzekerheid, want er was duidelijk ook ruimte voor verbetering wat de onderzoeksmethode betreft.
What happens in the soil, stays in the soil? Niet als we met deze fundamentele info landbouwkundige of klimatologische voorspellingen kunnen verbeteren. Metingen van bodemprocessen voor verschillende irrigatietechnieken zijn dan ook broodnodig. 
Verder nam ik ook de afbraak van koolstof in de bodem – de bron van methaan – onder de loep. Wat blijkt? Een aanzienlijk deel van deze bodemkoolstof lost, na het inwerken van gewasresten, op in het bodemvocht door interactie met ijzer, waardoor de methaanproducerende micro-organismen er meer vat op zouden kunnen hebben. Gelukkig blijkt dit laatste mee te vallen: die opgeloste koolstof wordt daarna niet volledig verder afgebroken tot broeikasgassen zoals methaan. Bovendien is dit proces al bij al minder sterk bij waterbesparende irrigatie.
Omdat ook de gewasopbrengst niet in gevaar mag komen, keek ik tot slot naar de beschikbaarheid van stikstof (meer bepaald ammonium: de voornaamste voedingsstof voor de rijstplant). In bodems van rijstvelden zit het overgrote deel van die voedingsstoffen namelijk “vast” binnenin kleimineralen – onbereikbaar voor de rijstplant. Mijn experimenten toonden aan dat dit fenomeen, dat allesbepalend is voor de stikstofbeschikbaarheid voor de rijstplant, te maken heeft met hoeveel stikstof wel beschikbaar is, en dat het irrigatiebeheer hier dan weer geen grote rol bij speelt
Hoe ver van ons bed deze processen ook mogen klinken – in bodems van rijstvelden, en bijgevolg bij de teelt en broeikasgasuitstoot van rijst, zijn ze stuk voor stuk cruciaal. Dankzij dit onderzoek en dat van collega-wetenschappers worden gaandeweg kleine maar belangrijke stapjes uit de duisternis gezet. Bovendien was mijn ontdekkingstocht ook leerzaam om de gebruikte onderzoeksmethodes verder te verbeteren en in de toekomst nog dieper kunnen te graven. Zo zullen we de klimaatwinst of gewasopbrengst van nieuwe teeltmethoden op termijn nauwkeuriger kunnen voorspellen, met klimaatvriendelijkere rijst als resultaat.
"""

In [49]:
## tokenisatie
doc = nlp(text)
for token in doc[:20]:
    print(token.text)



Rijst
is
één
van
de
meest
klimaatonvriendelijke
gewassen
ter
wereld
.
Rijst
telen
met
minder
water
helpt
,
maar


In [50]:
# stemming
stemmer = SnowballStemmer(language='dutch')
for token in text.split(" ")[:20]:
    print(token, '=>' , stemmer.stem(token))


Rijst => 
rijst
is => is
één => een
van => van
de => de
meest => meest
klimaatonvriendelijke => klimaatonvriend
gewassen => gewass
ter => ter
wereld. => wereld.
Rijst => rijst
telen => tel
met => met
minder => minder
water => water
helpt, => helpt,
maar => mar
de => de
processen => process
onder => onder


In [51]:
# zinsegmentatie
doc = nlp(text)
for sent in doc[:50].sents:
    print(sent.text)



Rijst is één van de meest klimaatonvriendelijke gewassen ter wereld.
Rijst telen met minder water helpt, maar de processen onder de grond zijn zo complex dat niemand voorspellingen kan doen.
Ik keek op atomair niveau in rijstbodems uit Bangladesh en Italië.

Het prijkt in de top drie van de meest geproduceerde gewassen ter wereld.


# Keyword extraction

In [52]:
doc = nlp(text)
doc.ents

(één,
 Bangladesh,
 Italië,
 drie,
 één,
 9 procent,
 Begrijpen,
 morgen,
 processen,
 Italië,
 twee,
 drie,
 Chemische,
 Stapvoets,
 eerste,
 What,
 the)

In [56]:
import yake

kw_extractor = yake.KeywordExtractor()
language = "nl"
max_ngram_size = 1
deduplication_threshold = 0.9
numOfKeywords = 10

custom_kw_extractor = yake.KeywordExtractor(lan=language, n=max_ngram_size, dedupLim=deduplication_threshold, top=numOfKeywords, features=None)
keywords = custom_kw_extractor.extract_keywords(text)
for kw in keywords:
    print(kw)

('bodems', 0.039517701656690246)
('Rijst', 0.04356155057014622)
('bodem', 0.05532478231936635)
('rijstvelden', 0.06693703026557563)
('methaan', 0.06888460466176462)
('water', 0.08009461528835997)
('processen', 0.08369585775242532)
('onderzoek', 0.08419790278597482)
('waterbesparende', 0.08478621347531022)
('heel', 0.1086053936577196)
