<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h1> <center> Gebaseerd op een cursus van:</center> </h1> 
    </font>
    <a href="https://www.aiopschool.be/chatbot/"> 
        <img src="../_afbeeldingen/bannerugentdwengo.png" alt="Dwengo" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 30px; width:20%"/>
    </a>
</div>

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h1>1. Regelgebaseerde (AI) Sentimentanalyse</h1> 
    </font>
</div>

<div style="background-color:#013220">
Taaltechnologen doen steeds meer een beroep op machine learning-modellen om bij gegeven teksten onderzoek te doen naar sentimentwoorden. De basis van deze modellen is echter te vinden in de <b>regelgebaseerde (AI) sentimentanalyse</b>. In deze notebook maak je daarom kennis met deze regelgebaseerde analyse.
</div>

<div style="background-color:#8B8000">
Om deze Notebook te volgen moet je een basiskennis hebben van Strings, Lists en Dictionaries. Stel zeker vragen als je tijdens het doorlopen van deze Notebook met vragen zit.
</div>

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h2>2. Principe van Sentimentanalyse</h2> 
    </font>
</div>

Sentimentanalyse maakt gebruik van een **lexicon** (= woordenboek) met daarin woorden gekoppeld aan hun **sentiment** (positief, negatief of neutraal), dus eigenlijk een woordenboek van sentimentwoorden. 

'Blij' bijvoorbeeld heeft een positieve polariteit, 'thuisbankieren' een neutrale en 'boos' een negatieve polariteit. In het lexicon wordt het sentiment weergegeven door een kommagetal (Float) tussen -2 en 2. Een strikt positief getal komt overeen met een positief sentiment, een strikt negatief getal met een negatief sentiment en 0 met een neutraal sentiment. 

<div>
<img src="../_afbeeldingen/schaal.png" alt="Banner" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 30px; width:40%"/>
</div>

Het sentiment van een tekst wordt bepaald door de som te nemen van alle sentimentwoorden in deze tekst.

Voor je sentimentwoorden uit een lexicon kunt matchen met de gegeven tekst (de data) moet je de data 
-  *inlezen*; 
-  *preprocessen*, d.w.z. voorverwerken zodat je het kan vergelijken met de woorden uit het lexicon. 

Preprocessing omvat alle stappen die nodig zijn om de data voor te bereiden op wat volgt. Namelijk het vergelijken met het lexicon. **Preprocessing is een zeer belangrijke stap**. Woorden kunnen namelijk op veel verschillende manieren geschreven en vervoegd worden. <br><br>Hieronder vind je een oplijsting van veelvoorkomende preprocessing stappen.

#### Preprocessing

1. **Lowercasing:** alle hoofdlettertekens worden vervangen door kleine letters. Lowercasing is nodig omdat de woorden in een lexicon staan zonder hoofdletters.
2. **Tokenisering:** alle zinnen worden in betekenisvolle eenheden of 'tokens' gesplitst, zoals woorden en leestekens. Deze splitsing gebeurt op basis van de aanwezige spaties in de zinnen.
3. **Woordsoort tagging:** aan elk token wordt toegekend wat het is, zoals adjectief of symbool. Sommige woorden kunnen bv. als zelfstandig EN als bijvoeglijk naamwoord voorkomen. Zo'n woord kan ook een andere sentimentwaarde hebben naargelang zijn woordsoort. De woordsoorten van het lexicon staan in het Engels. Dit is noodzakelijk voor de lerende (ML) sentimentanalyse.
4. **Lemmatisering:** alle tokens worden omgezet naar hun meest algemene vorm (= lemma of woordenboekvorm). Zo wordt "katten"-->"kat" of "gekund"-->"kunnen".

Tenslotte kan deze algemene vorm van deze tokens opgezocht worden in het lexicon. De som van alle tokens bepaald het sentiment van de tekst. Onderstaande afbeelding toont een schematische weergave van dit proces.

<span id="pre"></span>
<div>
<img src="../_afbeeldingen/sentiment.png" alt="Banner" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 10px; width:90%"/>
</div>

#### Voorbeeld:
Gegeven zin:    
De spelletjes waren toffe ijsbrekers.

1. Lowercasing: de spelletjes waren toffe ijsbrekers.

2. Tokens: 'de' 'spelletjes' 'waren' 'toffe' 'ijsbrekers' '.' 

3. Woordsoort: 
    -  'de': lidwoord (DET);
    -  'spelletjes': naamwoord (NOUN); 
    -  'waren': hulpwerkwoord (AUX);
    -  'toffe': adjectief (ADJ);
    -  'ijsbrekers': naamwoord (NOUN);
    -  '.': leesteken (SYM). <br> <br>
4. Lemma's: 'de', 'spel', 'zijn', 'tof', 'ijsbreker', '.'

Sentiment van de tekst:
-  De sentimenten van de lemma's worden opgezocht in het lexicon. Didwoorden/leestekens zijn altijd neutraal.
-  'spel' heeft polariteit 1, 'zijn' heeft polariteit 0, 'tof' heeft polariteit 0,8 en 'ijsbreker' 0.
-  Het sentiment van de gegeven zin is de som van deze sentimenten, dus 1,8. 
-  1,8 is een positief getal. De zin roept een positief sentiment op. 

<div style='color: #690027;margin-bottom:-35px;'>
    <h2>3. Modules importeren</h2> 
</div>

Nu je dit weet, kun je bijna aan de slag. Je laadt eerst twee Python-modules in. Voer daartoe de code-cel hieronder uit. 

In [None]:
# modules importeren
import json                       # voor lexicon
import string                     # voor opsomming leestekens  

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h2>4. Lexicon inlezen</h3> 
    </font>
</div>


<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>4.1 Opbouw Lexicon</h3> 
    </font>
</div>


Voer de code-cellen hieronder uit. Dit verschaft je meer info over de opmaak van het Lexicon.

In [None]:
# lexicon inlezen. Zorg dat het pad correct is (hoofdmap is hfst_5_AI)!
with open("lexicondict.json", "rb") as file: # bestand lexicondict.json in map data bevat het sentimentlexicon
    lexicon = json.load(file)

In [None]:
# datatype van lexicon
print(type(lexicon))

In [None]:
# aantal elementen in lexicon
print(len(lexicon))

In [None]:
# toon tien elementen van lexicon
lijst_keys = list(lexicon)[0:9]
for key in lijst_keys:
    print(f"{key}: {lexicon[key]}")

<div style="background-color:#000065"> 
    Het lexicon is een <b>dictionary</b> met 10938 woorden. Het lexicon geeft de woordsoort (adjectief, lidwoord, ...) en het sentiment van de woorden in het lexicon.<br><br>
    De woorden in het lexicon zijn de <b>keys</b> van de dictionary.
    De <b>values</b> van deze dictionary zijn opnieuw een dictionary met als <b>key</b> de "woordsoort" en overeenkomstige <b>value</b> de "sentimentscore". Sommige woorden hebben meerdere woordsoorten. Zo is <b>fout</b> zowel een adjectief (ADJ) als naamwoord (NOUN).
</div>

Uit bovenstaande code leid je bijvoorbeeld af:
-  het woord 'retorisch' is een adjectief dat qua sentiment neutraal is;
-  het woord 'gezwind' is een adjectief dat qua sentiment positief is;
-  het woord 'evenwichtig' is een adjectief dat positief is, positiever zelfs dan 'gezwind';
-  het woord 'fout' kan zowel een adjectief als een naamwoord zijn, beide met een negatief sentiment.

Je kan het lexicon ook weergeven in de vorm van een tabel:<br><br>

<table align="center">
 <thead align="center">
    <tr>
      <td>woord</td>
      <td>postag</td>
      <td>polarity</td>
     </tr>    
  </thead>
  <tbody align="center">  
      <tr> <td> retorisch </td>   <td> ADJ </td> <td> 0.0 </td>  </tr> 
      <tr> <td> gezwind </td>     <td> ADJ </td> <td> 0.6 </td>  </tr> 
      <tr> <td> evenwichtig </td> <td> ADJ </td> <td> 1.25 </td>  </tr> 
      <tr> <td> modaal </td>      <td> ADJ </td> <td> 0.3 </td>  </tr> 
      <tr> <td> digitaal </td>    <td> ADJ </td> <td> 0.0 </td> </tr> 
      <tr> <td> fout </td>        <td> ADJ </td> <td> -0.5 </td> </tr> 
      <tr> <td> fout </td>        <td> NOUN </td> <td> -2.0 </td> </tr> 
    </tbody>           
</table>

<div id="info_ophalen" style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>4.2 Info ophalen uit Lexicon (via Python)</h3> 
    </font>
</div>


Je kan aan de hand van Python-code de woordsoort en het sentiment van een woord opzoeken in het lexicon.<br>
Als voorbeeld (uitgaande van variabelnaam `lexicon`):
-  `lexicon["retorisch"].keys()` heeft als uitvoer `['ADJ']`
-  `lexicon["retorisch"].values()` heeft als uitvoer `[0.0]`
-  `lexicon["fout"].keys()` heeft als uitvoer `['ADJ', 'NOUN']`
-  `lexicon["fout"].values()` heeft als uitvoer `[-0.5, -2.0]`

Test dit uit:

In [None]:
lexicon["retorisch"].keys()

In [None]:
lexicon["retorisch"].values()

In [None]:
lexicon["fout"].keys()

In [None]:
lexicon["fout"].values()

#### Oefen mee 4.1:

Zoek op in het lexicon:
-  de woordsoort(en) van 'kwekkebekken'

-  de woordsoort(en) van  'aanraden'

-  De sentimentscore(s) van 'jolijt'

-  de sentimentscore(s) van 'konkelen'

- de sentimentscore van het naamwoord (NOUN) 'schoon'

In [None]:
# Tip: print eerst lexicon["schoon"], wat is de output?
#      Hoe kan je nu de score bij de key "NOUN" printen?

<div style="background-color:#8B0000"> 
Bedenk dat je gewoonweg in een dictionary bezig bent. Je kan dus nagaan of een woord zich als sleutel in de dictionary bevindt. Gebruik hiervoor <b>het keywoord in</b> of <b>de methode get</b>. 
</div>


In [None]:
print("zieke" in lexicon)
print("boos" in lexicon)

In [None]:
print(lexicon.get("zieke", "Staat niet in lexicon"))
print(lexicon.get("boos", "Staat niet in lexicon"))

#### Oefen mee 4.2:

Zoek een woord dat niet in het lexicon staat.

**Antwoord:**

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h2>5. Preprocessing</h2> 
    </font>
</div>

<div>
Nu het lexicon ingelezen is, is het tijd om deze te verwerken (preprocessen). Herinner je dat dit uit vier stappen bestond. Klik <a href=#pre>HIER</a> om terug te springen.
</div>

1. **Lowercasing**: zet alles in kleine letters.
2. **Tokenisering**: scheid alle woorden, leestekens en symbolen.
3. **woordsoort tagging**: geef ieder woord, leesteken en symbool een categorie.
4. **Lemmatisering**: schrijf ieder woord in zijn basisvorm.

We zullen deze stappen doorlopen op basis van een `klantenreview`.

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>5.0 Inlezen review</h3> 
    </font>
</div>


Voer volgende code-cellen uit om de review in te lezen en vervolgens te bekijken.

In [None]:
review = "Nieuw concept in Gent, maar dat kan volgens mij toch beter. De meeste cornflakes waren gewoon de basic soorten. Ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. En als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie."

In [None]:
print(review)

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>5.1 Lowercasing</h3> 
    </font>
</div>

#### Oefen mee 5.1:

Zet de tekst in de variabele `review` om naar lowercasing. Sla het resultaat op in de variabele `review_kleineletters`.

In [None]:
# zet tekst van de review om naar tekst in kleine letters
review_kleineletters =  # Vul aan

In [None]:
# toon resultaat van lowercasing (er mag geen hoofdletter meer in de review staan)
print(review_kleineletters)

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>5.2 Tokenisering</h3> 
    </font>
</div>

Nu zal je de review in woorden, leestekens en symbolen opsplitsen m.b.v. de computer, dat gebeurt op basis van spaties. Deze gescheiden elementen zijn **tokens**.

Om tokens automatisch te genereren, kijken we naar spaties. Het is namelijk eenvoudig om te zeggen dat ieder element na een spatie een nieuw token is. 

Hier is echter wel een probleem. Sommige woorden en leestekens staan aan elkaar vast. Deze moeten dus eerst met een spatie gescheiden worden. Bv. Hello world! wordt eerst geschreven als Hello world ! en de drie tokens zijn dan:<br> 'Hello', 'world' en '!'.

Je zal de review dus eerst wat moeten aanpassen: voor en na elk leesteken moet zeker een spatie aanwezig zijn.  

#### Oefen mee 5.2:

Zet spaties tussen alle tokens in de variabele `review_kleineletters`. Sla het resultaat op in de variabele `tokens`. 

Alle mogelijke leestekens zijn terug te vinden in de variabele `leestekens`.

In [None]:
# Variabele met erin alle leestekens
leestekens = string.punctuation
print(leestekens)

Tip: overloop ieder karakter in de string `review_kleineletters`. 
-  Is het een gewone letter? Voeg het toe aan `review_tokens`.
-  Is het een leesteken? Zet eerst een spatie voor het teken, en voeg het daarna toe aan `review_tokens`.

Gebruik **(not) in** om te controleren of een element niet/wel in de variabele **leestekens** voorkomt.

In [None]:
review_spaties = ""     # lege string, zet hierin review_kleineletters met spaties tussen alle elementen.
for karakter in review_kleineletters:
    # Vul aan

In [None]:
# toon resultaat van spaties toevoegen
print(review_spaties)

<div style="background-color:#8B0000"> 
Ga pas verder als bovenstaande een spatie heeft tussen ieder <b>element</b>
</div>


Nu ieder element gescheiden is door een spatie, kunnen we de zin omvormen naar tokens. Splits de string op, op basis van de spaties. Het resultaat moet een **lijst met tokens** zijn (zie voorbeeld iets verderop).

In [None]:
review_tokens = # Vul aan

In [None]:
print(review_tokens)

<div style="background-color:#8B0000"> 
    Ga pas verder als bovenstaande print volgend resultaat geeft:
</div>

In [None]:
['nieuw', 'concept', 'in', 'gent', ',', 'maar', 'dat', 'kan', 'volgens', 'mij', 'toch', 'beter', '.', 'de', 'meeste', 'cornflakes', 'waren', 'gewoon', 'de', 'basic', 'soorten', '.', 'ook', 'wat', 'duur', 'voor', 'de', 'hoeveelheid', 'die', 'je', 'krijgt', ',', 'vooral', 'met', 'de', 'toppings', 'zijn', 'ze', 'zuinig', '.', 'en', 'als', 'je', 'ontbijt', 'aanbiedt', ',', 'geef', 'de', 'mensen', 'dan', 'toch', 'ook', 'wat', 'meer', 'keuze', 'voor', 'hun', 'koffie', '.']

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>5.3 Woordsoort tagging</h3> 
    </font>
</div>

Als de tekst getokeniseerd is, kan je aan elk token een **woordsoort tag** toekennen. Dit is belangrijk omdat sommige woorden meerdere tags bezitten. Sommige woorden kunnen bijvoorbeeld als substantief én als adjectief gebruikt worden. Dit met een andere sentimentscore. De **woordsoort tag** toekennen is dus noodzakelijk om een correcte score te bekomen. 

#### Oefen mee 5.3:

Wat voor tag(s) hebben volgende woorden?

**nieuw**: 

**Concept**:

**in**:

Hopelijk merk je dat het taggen van woorden geen fijn proces is. Om de review te kunnen verwerken, moet je ieder woord labellen met de correcte woordsoort. Om jullie dit werk te besparekn, geeft onderstaande lijst `tags` de woordsoorten voor de volledige review. De **positie van de tags** komt overeen met de **positie van de tokens** uit 5.2.

In [None]:
tags = ['ADJ', 'NOUN', 'ADP', 'PROPN', 'SYM', 'CCONJ', 'PRON', 'VERB', 'ADP', 'PRON', 'ADV', 'ADJ', 'SYM', 'DET', 'ADV', 'NOUN', 'AUX', 'ADJ', 'DET', 'ADJ', 'NOUN', 'SYM', 'ADV', 'DET', 'ADJ', 'ADP', 'DET', 'NOUN', 'PRON', 'PRON', 'AUX', 'SYM', 'ADV', 'ADP', 'DET', 'NOUN', 'AUX', 'PRON', 'ADJ', 'SYM', 'CCONJ', 'SCONJ', 'PRON', 'NOUN', 'AUX', 'SYM', 'VERB', 'DET', 'NOUN', 'ADV', 'ADV', 'ADV', 'PRON', 'DET', 'NOUN', 'ADP', 'PRON', 'NOUN', 'SYM', 'SYM', 'SYM']

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h3>5.4 Lemmatisering</h3> 
    </font>
</div>

Een token opzoeken in het lexicon doe je in zijn woordenboekgedaante. Elk token moet dus gelemmatiseerd worden, m.a.w. teruggebracht worden naar zijn **lemma** of woordenboekvorm, zoals enkelvoud voor een naamwoord en de infinitief voor een werkwoord. Het opzoeken van zo'n woordenboekvorm in het lexicon kan dan **geautomatiseerd** worden.

Net zoals bij <font color=#690027 markdown="1"> 5.3 Woordsoort tagging en lemmatisering </font>, moet je ieder woord voorzien (labellen) met het juiste lemma. Om jullie dit werk te besparen, kunnen jullie onderstaande lijst `lemmas` gebruiken.  De **positie van de lemmas** komt overeen met de **positie van de tokens** uit 5.2.

In [None]:
lemmas = ['nieuw', 'concept', 'in', 'gent', ',', 'maar', 'dat', 'kunnen', 'volgens', 'mij', 'toch', 'goed', '.', 'de', 'veel', 'cornflakes', 'zijn', 'gewoon', 'de', 'basic', 'soort', '.', 'ook', 'wat', 'duur', 'voor', 'de', 'hoeveelheid', 'die', 'je', 'krijgen', ',', 'vooral', 'met', 'de', 'topping', 'zijn', 'ze', 'zuinig', '.', 'en', 'als', 'je', 'ontbijt', 'aanbieden', ',', 'geven', 'de', 'mens', 'dan', 'toch', 'ook', 'wat', 'meer', 'keuze', 'voor', 'hun', 'koffie', '.', '.', '.']

Na het opstellen van de lemmas ben je klaar met **preprocessing**.

#### Oefen mee 5.4:
Doorloop de eerste tien elementen in de lijst `lemmas`. Welke verschillen zijn er met de elementen uit de lijst `tokens`?

In [None]:
# Toon eerste tien tokens en lemmas van deze tokens
for i in range(10):
    print(f"{review_tokens[i]} | {lemmas[i]}")

**Antwoord**:

<div style="background-color:#8B0000"> 
    In het volgende deel zal je de variabelen `tags` en `lemmas` gebruiken. De variabele `tokens` is niet nodig!
</div>

<div style="margin-bottom:-35px;">
    <font color=#690027 markdown="1">
        <h2>6. Sentiment lexicon matching</h2> 
    </font>
</div>

Met de variabelen `tags` en `lemmas` is het mogelijk om de sentimentscore van de tekst te bepalen. Dit door de lemma met de overeenkomstige tag op te zoeken in het `lexicon`.

Stel dat we de sentimentscore van het lemma 'nieuw' willen bepalen. Deze heeft als tag 'ADJ'.

In [None]:
print(lexicon["nieuw"]["ADJ"])

Het is nu aan jullie om dit te doen voor ieder tag/lemma-paar in de lijsten `tags`/`lemmas`.<br> Je moet er wel mee rekening houden dat een tag/lemma-paar niet per se in de dictionary `lexicon` aanwezig is.

#### Oefen mee 6.1
Nu je review *gepreprocessed (voorverwerkt)* is, kan je het **sentiment bepalen** met behulp van het **lexicon** van sentimentwoorden dat je ter beschikking hebt (in de variabele `lexicon`). Het is dus de bedoeling dat je ieder element in `lemmas` en `tags` overloopt. Staat de combo in `lexicon`? Voeg dan de sentimentwaarde toe aan de variabele `sentiment_score`. We willen de som weten van alle sentimentwaarden!

Je kan als volgt te werk gaan om de sentimentscore te berekenen. Voor ieder element in `lemmas` en `tags`:
- Staat de **lemma** van dit element in `lexicon` (gebruik **keywoord in**)? Zo ja...
- Heeft deze **lemma** in `lexicon` de overeenkomstige **woordsoort**? Zo ja... 
- Bepaal de overeenkomstige sentimentwaarde en tel deze op bij de teller `sentiment_score`.

Als voorbeeld voor het lemma '**krijgen**', met als tag '**VERB**':
- staat '**krijgen**' in het lexicon? JA
- Heeft '**krijgen**' in het lexicon de woordsoort '**VERB**'? JA
- Dit element heeft een sentimentwaarde van 0.0. Tel deze waarde op bij `sentiment_score`.

<div style="background-color:#8B0000"> 
Bovenstaand stappenplan gebruikt het <b>keywoord in</b>, hiernaast is er ook de <b>methode get</b>. Zou get gebruiken, makkelijker zijn?
</div>

In [None]:
sentiment_score = 0
for index, lemma in enumerate(lemmas):
    # Vul aan

Je kan onderstaande code gebruiken om een zin te printen bij de bekomen sentiment_score.

In [None]:
# eindbeslissing voor deze review
if sentiment_score > 0:
    sentiment = "positief"
elif sentiment_score == 0:
    sentiment = "neutraal"
elif sentiment_score < 0:
    sentiment = "negatief"
print(f"De sentimentscore van de review is: {sentiment_score}")
print("Het sentiment van de review is dus " + sentiment + ".")    

#### Oefen mee 6.2
Sommige zaken verliepen reeds geautomatiseerd, sommige moest je manueel doen. Lijst eens op wat manueel gebeurde en wat automatisch.

**Antwoord automatisch**:

**Antwoord manueel**:

De manuele zaken zijn gegeven aan jullie. Deze zelf doen zou te veel tijd kosten, het is dan ook nog niet praktisch om andere reviews te verwerken. In het volgende deel **3_ML_sentiment.ipynb**. Zullen we zien hoe de zaken die momenteel manueel zijn, ook te automatiseren.

<div style="background-color:#013220">
Proficiat, je hebt geleerd hoe een regelgebaseerd systeem voor sentimentanalyse werkt!
</div>

  <a href="https://www.aiopschool.be/chatbot/"> 
        <img src="../_afbeeldingen/bannerugentdwengo.png" alt="Dwengo" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 30px; width:20%"/>
    </a>

Deze Notebook is gebaseerd op: Notebook Sentimentanalyseregelgebaseerd, zie <a href="http://www.aiopschool.be">AI Op School</a>, van S. Pletinck , F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 