<div style="margin-bottom:-35px;">
    <font color=#FFFFFF markdown="1">
        <h1> <center> Gebaseerd op een cursus van:</center> </h1> 
    </font>
    <a href="https://www.aiopschool.be/chatbot/"> 
        <img src="../_afbeeldingen/bannerugentdwengo.png" alt="Dwengo" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 30px; width:20%"/>
    </a>
</div>

# Toepassing: AI (regelgebaseerde) Sentimentanalyse

## 1. Algemene info bij notebook

<div style="background-color:#8B8000">
Om deze Notebook te volgen moet je een basiskennis hebben van Strings, Lists en Dictionaries. Stel zeker vragen als je tijdens het doorlopen van deze notebook met vragen zit.
</div>

### 1.1 Modules installeren

Voor deze notebook zijn geen nieuwe modules nodig.

### 1.2 Wat is Sentimentanalyse?

Sentimentanalyse is een techniek die gebruikt wordt om het 'sentiment' van een tekst te bepalen. In simpele termen: is de emotionele toon van een tekst positief, negatief of neutraal?

Sentimentanalyse kan voor verschillende zaken gebruikt worden. Bijvoorbeeld om te controleren hoe neutraal het artikel van een journalist is. Of om op basis van een hoop recensies te bepalen hoe positief klanten zijn over een bepaald product.

<div style="background-color:#8B8000">
Taaltechnologen doen steeds meer een beroep op machine learning-modellen om sentiment te onderzoeken. De basis van deze modellen is echter te vinden in de <b>regelgebaseerde (AI) sentimentanalyse</b>. In deze notebook maak je daarom kennis met de puur regelgebaseerde analyse.
</div>

## 2. Stappen van Sentimentanalyse

Volgende afbeelding vat het bepalen van het sentiment samen. De tekst eronder legt dit proces in meer detail uit.

<img id="pre" src="../_afbeeldingen/sentiment.png" alt="Banner" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 10px; width:90%"/>

### 2.1 Het lexicon (= sentimentwoordenboek)

Sentimentanalyse maakt gebruik van een **lexicon** (= woordenboek) met daarin woorden gekoppeld aan hun **sentiment** (positief, negatief of neutraal), dus eigenlijk een woordenboek of dictionary van sentimentwoorden (zie voorbeeld afbeelding links). 

'Blij' bijvoorbeeld heeft een positief sentiment, 'thuisbankieren' een neutrale en 'boos' een negatief sentiment. In het lexicon wordt het sentiment weergegeven door een kommagetal tussen -2 en 2 (zie voorbeeld afbeelding rechts). Een positief getal komt overeen met een positief sentiment, een negatief getal met een negatief sentiment en 0 met een neutraal sentiment. 

Het sentiment van een tekst wordt bepaald door de som te bepalen van alle sentimentwoorden in deze tekst (zie deel 2.3).

#### Voorbeeld:
<style>
    .image-container {
        display: flex;
        justify-content: center;
    }

    .image-container img {
        width: 15%; /* Adjust the width as needed */
        height: 1%; /* Maintain aspect ratio */
        margin-right: 3%
    }
</style>
</head>
<body>

<div class="image-container">
    <img src="..\_afbeeldingen\lexicon.png">
    <img src="..\_afbeeldingen\schaal.png">
</div>

### 2.2 preprocessing (= voorverwerken)

Vooraleer we de tekst kunnen analyseren met het lexicon, moeten we deze eerst voorverwerken. Dit zodat deze in een vorm staat, die we makkelijk met de woorden in het lexicon kunnen vergelijken.

Het voorverwerken van de tekst bestaat uit een aantal stappen.
1. **Lowercasing**: zet de volledige tekst om naar kleine letters (waarom denk je dat dit moet?).
2. **Tokenisering**: splits de tekst op in een lijst van individuele woorden (en verwijder leestekens).
3. **Tagging**: geef bij ieder woord aan wat het is (adjectief, werkwoord, naamwoord, ...). Denk bijvoorbeeld aan het woord 'lam'. Dit is 'jong schaap' als zelfstandig naamwoord, maar als bijvoeglijk naamwoord betekent het 'verlamd'.
4. **Lemmatisering**: zet alle woorden om naar hun meest algemene vorm (= de lemma). Zo wordt 'katten'-->'kat' en 'gekund'-->'kunnen'. Dit is de vorm zoals ze ook in het lexicon voorkomen.

#### Voorbeeld:
Gegeven zin: De spelletjes waren toffe ijsbrekers.

1. Lowercasing: de spelletjes waren toffe ijsbrekers.

2. Tokens: 'de' 'spelletjes' 'waren' 'toffe' 'ijsbrekers'

3. Woordsoort: 
    -  'de': lidwoord (DET);
    -  'spelletjes': naamwoord (NOUN); 
    -  'waren': hulpwerkwoord (AUX);
    -  'toffe': adjectief (ADJ);
    -  'ijsbrekers': naamwoord (NOUN);
    
4. Lemma's: 'de', 'spel', 'zijn', 'tof', 'ijsbreker'

### 2.3 Sentiment bepalen

Iedere lemma (met woordsoort) uit de voorverwerking wordt overlopen. Staat deze in het lexicon? Tel zijn score dan op bij een teller. Het eindtotaal van deze teller geeft het sentiment (positief, negatief, neutraal) van de tekst aan.

#### Voorbeeld:

Sentiment van de tekst bepalen...
-  Overloop de lemma's: 'de' (DET), 'spel' (NOUN), 'zijn' (AUX), 'tof' (ADJ), 'ijsbreker' (NOUN)
    - (DET) 'de' zit niet in lexicon, we geven deze waarde 0.
    - (NOUN) 'spel' zit in lexicon met waarde 1.
    - (AUX) 'zijn' zit in lexicon met waarde 0. 
    - (ADJ) 'tof' zit in lexicon met waarde 0.8. Verhoog de teller met 0.8.
    - (NOUN) 'ijsbreker' zit in lexicon met waarde 0. Verhoog de teller met 0.
-  Het sentiment van de gegeven zin is de som van deze sentimenten, dus 1,8. Dit is een positief sentiment!

## 3. Lexicon inlezen

### 3.1 Modules importeren & lexicon klaarzetten

Importeer onderstaande modules.

In [1]:
import json # voor lexicon

Zet hiernaast ook het lexicon klaar. Dit door deze in te laden uit lexicondict.json

In [2]:
# Lexicon inlezen. Deze bevindt zich in lexicondict.json.
with open("lexicondict.json", "rb") as file:
    lexicon = json.load(file)

### 3.2 Opbouw Lexicon

Je kan het lexicon weergeven in de vorm van een tabel. Zoals je ziet heeft ieder woord een woordsoort, en een sentimentscore. Merk zeker het woord fout op. Dit kan zowel een adjectief als naamwoord zijn. Afhankelijk hiervan krijgt het woord een andere score.<br><br>

<table align="center">
 <thead align="center">
    <tr>
      <td>woord</td>
      <td>postag</td>
      <td>sentiment</td>
     </tr>    
  </thead>
  <tbody align="center">  
      <tr> <td> retorisch </td>   <td> ADJ </td> <td> 0.0 </td>  </tr> 
      <tr> <td> gezwind </td>     <td> ADJ </td> <td> 0.6 </td>  </tr> 
      <tr> <td> evenwichtig </td> <td> ADJ </td> <td> 1.25 </td>  </tr> 
      <tr> <td> fout </td>        <td> ADJ </td> <td> -0.5 </td> </tr> 
      <tr> <td> fout </td>        <td> NOUN </td> <td> -2.0 </td> </tr> 
    </tbody>           
</table>

Voer de code-cellen hieronder uit. Dit verschaft je meer info over de opmaak van het Lexicon.

In [3]:
# datatype van lexicon
print(type(lexicon))

<class 'dict'>


In [4]:
# aantal woorden in lexicon
print(len(lexicon))

10939


In [5]:
# toon tien elementen van lexicon
lijst_keys = list(lexicon)[0:9]
for key in lijst_keys:
    print(f"{key}: {lexicon[key]}")

retorisch: {'ADJ': 0.0}
fout: {'ADJ': -0.5, 'NOUN': -2.0}
gezwind: {'ADJ': 0.6}
evenwichtig: {'ADJ': 1.25}
modaal: {'ADJ': 0.4}
digitaal: {'ADJ': 0.0}
onverdeeld: {'ADJ': 0.1}
wulps: {'ADJ': 0.7}
bemoeiziek: {'ADJ': -1.35}


#### Oefen mee 3.1

- Beantwoord volgende vragen over het lexicon. <div style="background-color:#008000">
    - Welk datatype is het lexicon?  een dict
    - Hoeveel woorden zitten er in het lexicon?  10939
    - Ieder element in het lexicon heeft als datatype?  string
    - Welke informatie vind je in ieder element?  woordsoorten
</div>

- Open lexicondict.json, bepaal de woordsoort en het sentiment af van volgende woorden. <div style="background-color:#008000">
    - retorisch: "ADJ": 0.0
    - gezwind:   "ADJ": 0.6
    - evenwichtig:   "ADJ": 1.25
    - fout: "ADJ": -0.5,
            "NOUN": -2.0   
</div>

<div style="background-color:#8B0000">
de woordsoorten van de lexicons staan in het Engels. Zoek online de vertaling op indien nodig.
</div>

- Zoek in lexicondict.json twee woorden met meerdere woordsoorten. <div style="background-color:#008000"> 
    - Woord + woordsoorten: fout
    - Woord + woordsoorten: schoon
</div>

<div style="background-color:#000065"> 
    Het lexicon is een <b>dictionary</b> met 10938 woorden. Het lexicon geeft de woordsoort (adjectief, lidwoord, ...) en het sentiment (score) van de woorden in het lexicon.<br><br>
    De woorden in het lexicon zijn de <b>keys</b> van de dictionary.
    De <b>values</b> van deze dictionary zijn opnieuw een dictionary met als <b>key</b> de "woordsoort" en overeenkomstige <b>value</b> de "sentimentscore". Sommige woorden hebben meerdere woordsoorten. Zo is <b>fout</b> zowel een adjectief (ADJ) als naamwoord (NOUN). Dit betekent dus dat ze meerdere subelementen hebben.
</div>

### 3.3 Info ophalen uit Lexicon (via Python)


Het lexicon is eigenlijk gewoon een geneste dictionary. De hoofd-dictionary (rood) heeft als sleutel de woorden. De sub-dictionaries (groen) bevatten voor ieder woord als sleutel de woordsoort en als waarde de sentimentscore.

<div>
<img src="../_afbeeldingen/lexicon_opbouw.png" alt="Banner" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 10px; width:35%"/>
</div>

Aangezien de lexicon een geneste dictionary is, kunnen we deze met Python manipuleren. Laad het lexicon opnieuw in, ga vervolgens door naar de oefen mee's.

#### Oefen mee 3.2

 - Wat printen onderstaande regels code (eerst aanvullen, vervolgens pas uitvoeren).

In [6]:
# Haal sleutel(s) uit sub-dict van retorisch. --> Zijn dit woordsoorten of scoren?
print(lexicon["retorisch"].keys())   # VUL AAN: ADJ

# Haal waarde(n) uit sub-dict van retorisch.  --> Zijn dit woordsoorten of scoren?
print(lexicon["retorisch"].values()) # VUL AAN: 0.0

# Haal sleutel(s) uit sub-dict van fout.      --> Zijn dit woordsoorten of scoren?
print(lexicon["fout"].keys())        # VUL AAN: ADJ, NOUN

# Haal waarde(n) uit sub-dict van fout.       --> Zijn dit woordsoorten of scoren?
print(lexicon["fout"].values())      # VUL AAN: -0.5, -2.0

dict_keys(['ADJ'])
dict_values([0.0])
dict_keys(['ADJ', 'NOUN'])
dict_values([-0.5, -2.0])


- Print via Python volgende zaken van het lexicon (gebruik onderstaande code-cel)
    - de woordsoort(en) van 'tussenliggend'.
    - de woordsoort(en) van 'consistent'.
    - de woordsoort(en) van 'schoon'.

<div style="background-color:#8B0000"> Tip! Bekijk bovenstaande code. </div>

In [7]:
# Stel hier de gevraagde code van oefen mee 3.2 op.
print(lexicon["tussenliggend"].keys())
print(lexicon["consistent"].keys())
print(lexicon["schoon"].keys())

dict_keys(['ADJ'])
dict_keys(['ADJ'])
dict_keys(['ADJ', 'NOUN'])


#### Oefen mee 3.3:

Wij zijn voornamelijk geïnteresseerd in de sentimentscore. Om deze te bereiken zijn er 2 springen nodig. De eerste in het woord, de tweede in de woordsoort.

In [8]:
# Score van ADJ 'tussenliggend' ophalen.
print( lexicon['tussenliggend']['ADJ'] ) 

-0.1


- Print via Python volgende zaken van het lexicon (gebruik onderstaande code-cel)
    - de sentimentscore van NOUN 'schoon'.
    - de sentimentscore van ADJ 'schoon'.
    - de sentimentscore van 'consistent'. <-- Zoek woordsoort zelf in lexicon op

<div style="background-color:#8B0000"> Tip! Bekijk bovenstaande code. </div>

In [9]:
# Stel hier de gevraagde code van oefen mee 3.3 op.
print(lexicon["schoon"]["NOUN"])
print(lexicon["schoon"]["ADJ"])
print(lexicon["consistent"]["ADJ"])

1.0
0.466666666667
1.0


####
Niet ieder woord staat in de lexicon. Indien je een onbestaand woord opzoekt krijg je een KeyError.

In [10]:
# KeyError: 'chatbot' zit niet in lexicon.
print(lexicon['chatbot'])

KeyError: 'chatbot'

Je zal hiermee rekening moeten houden. Dit kan op 2 manieren...
<div style="background-color:#8B0000">Voor meer info hierover, ga terug naar Hfst 2: dictionaries.</div>

1. Controleer op voorhand of woord IN lexicon zit.
    

In [11]:
woord = "chatbot"
if woord in lexicon:
    print(lexicon[woord])
else:
    print(woord + " zit niet in lexicon!")

chatbot zit niet in lexicon!


2. Gebruik methode get.

In [12]:
woord = "chatbot"
print(lexicon.get(woord, woord + " staat niet in lexicon"))

chatbot staat niet in lexicon


#### Oefen mee 3.4:

- Zoek een woord dat niet in het lexicon staat. <div style="background-color:#008000">
    -  Woord: bananenfiets
</div>

- Schrijf code die het volgende doet (in onderstaande code-cel).
    - Vraag de gebruik om een woord.
    - Vraag de gebruiker om een woordsoort.
    - Zoek de combinatie van woord & woordsoort op in het lexicon.
        - Bestaat deze? Print dan de sentimentscore.
        - Bestaat deze niet? Print dan welk van de twee (woord of woordsoort) fout is.
<div style="background-color:#8B0000">Controleer of het woord bestaat in de hoofd-dict en hierna als de woordsoort bestaat in de sub-dict.</div>

In [22]:
""" Voorbeelden:
    - woord='behulpzaam', soort='ADJ' --> 1.0
    - woord='chatbot', soort='NOUN'   --> chatbot komt niet voor in lexicon.
    - woord='helpen', soort='NOUN'    --> helpen heeft geen NOUN in lexicon.
"""
woord = input("woord: ")
soort = input("soort: ")
if woord in lexicon:
    if (soort.upper()) in lexicon[woord]:
        print(lexicon[woord][soort.upper()])
    else:
        print(f"{woord} heeft geen {soort} in lexicon")
else:
    print(f"{woord} komt niet voor in lexicon")

# Stel hier de gevraagde code van oefen mee 3.4 op.

dlkfj komt niet voor in lexicon


## 4. Preprocessing

Nu het lexicon begrepen is, is het tijd om de tekst zelf te verwerken (preprocessen). Ga naar **'2.2 preprocessing'** als je meer uitgebreid wilt herhalen wat dit is. In het kort zijn er 4 stappen.

1. **Lowercasing**: zet alles in kleine letters.
2. **Tokenisering**: scheid alle woorden (en verwijder leestekens).
3. **woordsoort tagging**: bepaal de woordsoort (naamwoord, adjectief, ...) van ieder woord.
4. **Lemmatisering**: vorm ieder woord om naar zijn basisvorm.

We zullen deze stappen doorlopen met behulp van de tekst in `review`.

### 4.1 Modules & variabelen klaarzetten


Voer onderstaande code-cel om module `string` en variabele `review` klaar te zetten.

In [23]:
import string # voor opsomming leestekens  

review = "Nieuw concept in Gent, maar dat kan volgens mij toch beter. De meeste cornflakes waren gewoon de basic soorten. Ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. En als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie..."

### 4.2 Lowercasing

De aller eerste stap is het omzetten van `review` naar kleine letters. Gelukkig is dit ingebouwd in Python! Zet de tekst in de variabele `review` om naar kleine letters (via welke methode?). Sla het resultaat op in de variabele `review_kleineletters`.

In [24]:
# zet tekst van de review om naar tekst in kleine letters
review_kleineletters = review.lower()


# toon resultaat van lowercasing (er mag geen drukletter meer in de review staan)
print(review_kleineletters)

nieuw concept in gent, maar dat kan volgens mij toch beter. de meeste cornflakes waren gewoon de basic soorten. ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. en als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie...


<div style="background-color:#8B0000"> 
    Ga pas verder als bovenstaande print volgend resultaat geeft:
</div>

In [None]:
"nieuw concept in gent, maar dat kan volgens mij toch beter. de meeste cornflakes waren gewoon de basic soorten. ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. en als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie..."

### 4.3 Tokenisering

De volgende stap is tokenisering. We zullen hier `review_kleineletters` opsplitsen in een lijst van woorden met de naam `review_tokens`.

Vooraleer we dit kunnen doen moeten we eerst alle leestekens verwijderen uit de tekst. Dit kan zeer eenvoudig via de string-methode **replace**.

In [25]:
zin = "Dit is een zin. Echt waar...."
zin_zonderPunten = zin.replace(".","") # Vervang alle punten in de zin door niets.
print(zin_zonderPunten)

Dit is een zin Echt waar


Er zijn echter een hoop leestekens. Om het ons gemakkelijk te maken, halen we deze uit de module **string**.

In [26]:
# String met erin alle leestekens
leestekens = string.punctuation
print(leestekens)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Haal alle leestekens weg uit `review_kleineletters`. Sla het resultaat op in de variabele `review_zonderLeestekens`. Gebruik hiervoor de variabele **leestekens**. 

In [29]:
# Overloop ieder leesteken in leestekens. 
#   Gebruik de methode replace om ieder leesteken uit review_kleineletters te halen.
for leesteken in leestekens:
    review_kleineletters = review_kleineletters.replace(leesteken, "")
review_zonderLeestekens = review_kleineletters
# toon resultaat (er mogen geen leestekens meer in de review staan).
print(review_zonderLeestekens)

nieuw concept in gent maar dat kan volgens mij toch beter de meeste cornflakes waren gewoon de basic soorten ook wat duur voor de hoeveelheid die je krijgt vooral met de toppings zijn ze zuinig en als je ontbijt aanbiedt geef de mensen dan toch ook wat meer keuze voor hun koffie


Tenslotte splits alle woorden in `review_zonderLeestekens`. Sla het resultaat op in een variabele `review_tokens`. Gebruik hiervoor de string-methode **split**.

In [31]:
# Gebruik de methode split om review_zonderLeestekens op te splitsen.
review_tokens = review_zonderLeestekens.split(" ")

# toon resultaat (moet een lijst van losse woorden zijn).
print(review_tokens)

['nieuw', 'concept', 'in', 'gent', 'maar', 'dat', 'kan', 'volgens', 'mij', 'toch', 'beter', 'de', 'meeste', 'cornflakes', 'waren', 'gewoon', 'de', 'basic', 'soorten', 'ook', 'wat', 'duur', 'voor', 'de', 'hoeveelheid', 'die', 'je', 'krijgt', 'vooral', 'met', 'de', 'toppings', 'zijn', 'ze', 'zuinig', 'en', 'als', 'je', 'ontbijt', 'aanbiedt', 'geef', 'de', 'mensen', 'dan', 'toch', 'ook', 'wat', 'meer', 'keuze', 'voor', 'hun', 'koffie']


<div style="background-color:#8B0000"> 
    Ga pas verder als bovenstaande print volgend resultaat geeft:
</div>

In [None]:
['nieuw', 'concept', 'in', 'gent', 'maar', 'dat', 'kan', 'volgens', 'mij', 'toch', 'beter', 'de', 'meeste', 'cornflakes', 'waren', 'gewoon', 'de', 'basic', 'soorten', 'ook', 'wat', 'duur', 'voor', 'de', 'hoeveelheid', 'die', 'je', 'krijgt', 'vooral', 'met', 'de', 'toppings', 'zijn', 'ze', 'zuinig', 'en', 'als', 'je', 'ontbijt', 'aanbiedt', 'geef', 'de', 'mensen', 'dan', 'toch', 'ook', 'wat', 'meer', 'keuze', 'voor', 'hun', 'koffie']

### 4.4 Woordsoort tagging

Nu de woorden zijn opgesplitst moeten we ieder woord taggen. Dit wilt zeggen aangeven wat voor soort woord het is (naamwoord, werkwoord, adjectief, ...). 

Herinner je dat dit nodig is omdat sommige woorden meerdere soorten hebben. Bijvoorbeeld het woord lam ( NOUN 'jong schaap' <--> ADJ 'verlamd'). De **woordsoort taggen** is dus noodzakelijk om een correcte score te bekomen.

- Zoek in lexicondict.json de woordsoort(en) & score(n) van volgende woorden op. <div style="background-color:#008000">
    - 'nieuw': "ADJ": 0.575
    - 'concept':  "NOUN": 0
    - 'lam':    "ADJ": -0.6,
                "NOUN": 1.0
</div>

Hopelijk merk je dat het taggen van woorden geen fijn proces is. Om de review te kunnen verwerken, moet je ieder woord taggen met de correcte woordsoort. Om jullie dit werk te besparen, geeft onderstaande lijst `review_soort` de woordsoorten voor de volledige review. De **positie van de woordsoort** komt overeen met de **positie van de tokens** uit *4.3 Tokenisering*.

In [32]:
review_soort = ['ADJ', 'NOUN', 'ADP', 'PROPN', 'CCONJ', 'PRON', 'VERB', 'ADP', 'PRON', 'ADV', 'ADJ', 'DET', 'ADV', 'NOUN', 'AUX', 'ADJ', 'DET', 'ADJ', 'NOUN', 'ADV', 'DET', 'ADJ', 'ADP', 'DET', 'NOUN', 'PRON', 'PRON', 'AUX', 'ADV', 'ADP', 'DET', 'NOUN', 'AUX', 'PRON', 'ADJ', 'CCONJ', 'SCONJ', 'PRON', 'NOUN', 'AUX', 'VERB', 'DET', 'NOUN', 'ADV', 'ADV', 'ADV', 'PRON', 'DET', 'NOUN', 'ADP', 'PRON', 'NOUN']

### 4.5 Lemmatisering

Een woord opzoeken in het lexicon doe je in zijn woordenboekvorm (= lemma). Lemmatiseren is een woord terugbrengen naar zijn woordenboekvorm. Enkele voorbeelden van lemmatiseren zijn...
- Naamwoord in enkelvoud zetten.
- Werwoord terugbrengen naar infinitief.

Net zoals bij *4.4 Woordsoort tagging* moet je ieder woord afgaan. Ditmaal om het te voorzien van het juiste lemma. Om jullie dit werk te besparen, kunnen jullie onderstaande lijst `review_lemmas` gebruiken.  De **positie van de lemmas** komt overeen met de **positie van de tokens** uit *4.3 Tokenisering*.

In [33]:
review_lemmas = ['nieuw', 'concept', 'in', 'gent', 'maar', 'dat', 'kunnen', 'volgens', 'mij', 'toch', 'goed', 'de', 'veel', 'cornflakes', 'zijn', 'gewoon', 'de', 'basic', 'soort', 'ook', 'wat', 'duur', 'voor', 'de', 'hoeveelheid', 'die', 'je', 'krijgen', 'vooral', 'met', 'de', 'topping', 'zijn', 'ze', 'zuinig', 'en', 'als', 'je', 'ontbijt', 'aanbieden', 'geven', 'de', 'mens', 'dan', 'toch', 'ook', 'wat', 'meer', 'keuze', 'voor', 'hun', 'koffie']

- Schrijf code die de eerste 10 elementen uit `review_soort` & `review_lemmas` langs elkaar print.
    - <div style="background-color:#008000"> Welke verschillen zijn er?   </div>

Tip! Een woord in de ene lijst, heeft dezelfde positie in de andere lijst. De indexen komen dus overeen.

In [36]:
# Print hier de eerste 10 elementen van review_tokens & review_lemmas.
for i in range(10):
    print(f"{review_lemmas[i]} {review_soort[i]}")

nieuw ADJ
concept NOUN
in ADP
gent PROPN
maar CCONJ
dat PRON
kunnen VERB
volgens ADP
mij PRON
toch ADV


<div style="background-color:#8B0000"> 
    In het volgende deel zal je de variabelen `tags` en `lemmas` gebruiken. De variabele `review_tokens` uit deel 4.3 is dus niet nodig!
</div>

Na het opstellen van de tokens & lemma's is de voorverwerking compleet. We kunnen nu door naar de effectieve sentimentanalyse!

## 5. Sentimentanalyse

### 5.1 Variabelen klaarzetten

Gebruik onderstaande code-blok om `lexicon` vanuit lexicondict.json in te laden.

In [37]:
# Lexicon inlezen. Deze bevindt zich in lexicondict.json.
import json
with open("lexicondict.json", "rb") as file: 
    lexicon = json.load(file)

Laad ook onderstaande lijsten opgesteld in *deel 4. Preprocessing*.  
- `review_soort` met erin de woordsoort van ieder woord.
- `review_lemma` met erin de lemma van ieder woord. 

<div style="background-color:#8B0000"> 
De positie (en indexen) van elementen in de twee lijsten komen overeen. Index 2 is bijvoorbeeld NOUN concept, index 10 is dan weer ADJ goed, enzoverder...
</div>

In [38]:
review_soort =   ['ADJ',   'NOUN',    'ADP', 'PROPN', 'CCONJ', 'PRON', 'VERB',   'ADP',     'PRON', 'ADV',  'ADJ',  'DET', 'ADV',  'NOUN',       'AUX',  'ADJ',    'DET', 'ADJ',   'NOUN',  'ADV', 'DET', 'ADJ',  'ADP',  'DET', 'NOUN',        'PRON', 'PRON', 'AUX',     'ADV',    'ADP', 'DET', 'NOUN',    'AUX',  'PRON', 'ADJ',    'CCONJ', 'SCONJ', 'PRON', 'NOUN',    'AUX',       'VERB',  'DET', 'NOUN', 'ADV', 'ADV',  'ADV', 'PRON', 'DET',  'NOUN',  'ADP',  'PRON', 'NOUN']
review_lemmas = ['nieuw', 'concept', 'in',  'gent',  'maar',  'dat',  'kunnen', 'volgens', 'mij',  'toch', 'goed', 'de',  'veel', 'cornflakes', 'zijn', 'gewoon', 'de',  'basic', 'soort', 'ook', 'wat', 'duur', 'voor', 'de',  'hoeveelheid', 'die',  'je',   'krijgen', 'vooral', 'met', 'de',  'topping', 'zijn', 'ze',   'zuinig', 'en',    'als',   'je',   'ontbijt', 'aanbieden', 'geven', 'de',  'mens', 'dan', 'toch', 'ook', 'wat',  'meer', 'keuze', 'voor', 'hun',  'koffie']

### 5.2 Sentiment-analyse uitvoeren

We zullen nu een algoritme opstellen om het sentiment van een tekst te bepalen. Dit gebeurt in verschillende kleine stappen om het overzicht te behouden.

- Overloop ieder woord in de lijst `review_lemmas`.
    - Print langs het woord welke woordsoort het heeft (overeenkomstig element in `review_soort`).

In [40]:
""" VOORBEELD
Overzicht review:
    - nieuw - ADJ
    - concept - NOUN
    - in - ADP
    ...
"""
for index in range(len(review_lemmas)):
    print(f"{review_lemmas[index]} - {review_soort[index]}")
# VUL AAN

nieuw - ADJ
concept - NOUN
in - ADP
gent - PROPN
maar - CCONJ
dat - PRON
kunnen - VERB
volgens - ADP
mij - PRON
toch - ADV
goed - ADJ
de - DET
veel - ADV
cornflakes - NOUN
zijn - AUX
gewoon - ADJ
de - DET
basic - ADJ
soort - NOUN
ook - ADV
wat - DET
duur - ADJ
voor - ADP
de - DET
hoeveelheid - NOUN
die - PRON
je - PRON
krijgen - AUX
vooral - ADV
met - ADP
de - DET
topping - NOUN
zijn - AUX
ze - PRON
zuinig - ADJ
en - CCONJ
als - SCONJ
je - PRON
ontbijt - NOUN
aanbieden - AUX
geven - VERB
de - DET
mens - NOUN
dan - ADV
toch - ADV
ook - ADV
wat - PRON
meer - DET
keuze - NOUN
voor - ADP
hun - PRON
koffie - NOUN


- Controleer nu ook of de combinatie van woord & woordsoort in `lexicon` staat.
    - Indien ja, haal de sentimentscore af uit `lexicon` en print deze.
    - Indien nee, print dat de combo niet gevonden is.

<div style="background-color:#8B0000"> <b> Grijp hiervoor terug naar oefen mee 3.4.</b> in <b>deel 3.3 Info ophalen uit Lexicon</b></div>

In [45]:
""" VOORBEELD
Overzicht review:
    - nieuw - ADJ: 0.575
    - concept - NOUN: 0
    - in - ADP: combinatie bestaat niet.
    ...
"""
for index, woord in enumerate(review_lemmas):
    if woord in lexicon:
        if review_soort[index] in lexicon[woord]:
            print(f"{woord} - {review_soort[index] }: {lexicon[woord][review_soort[index]]}")
        else:
            print(f"{woord} heeft geen {review_soort[index] } in lexicon")
    else:
        print(f"{woord} komt niet voor in lexicon")
    # VUL AAN

nieuw - ADJ: 0.575
concept - NOUN: 0
in komt niet voor in lexicon
gent komt niet voor in lexicon
maar komt niet voor in lexicon
dat komt niet voor in lexicon
kunnen heeft geen VERB in lexicon
volgens komt niet voor in lexicon
mij komt niet voor in lexicon
toch komt niet voor in lexicon
goed - ADJ: 0.775
de komt niet voor in lexicon
veel heeft geen ADV in lexicon
cornflakes komt niet voor in lexicon
zijn - AUX: 0.0
gewoon - ADJ: 0.5
de komt niet voor in lexicon
basic komt niet voor in lexicon
soort komt niet voor in lexicon
ook komt niet voor in lexicon
wat komt niet voor in lexicon
duur - ADJ: -1.0666666666666667
voor - ADP: 1.0
de komt niet voor in lexicon
hoeveelheid komt niet voor in lexicon
die komt niet voor in lexicon
je komt niet voor in lexicon
krijgen heeft geen AUX in lexicon
vooral komt niet voor in lexicon
met komt niet voor in lexicon
de komt niet voor in lexicon
topping komt niet voor in lexicon
zijn - AUX: 0.0
ze komt niet voor in lexicon
zuinig - ADJ: 0.0
en komt niet v

- Tenslotte, indien een sentimentscore gevonden was. Tel het resultaat op bij variabele `sentiment_score`. Na ieder woord te overlopen, print de uiteindelijke behaalde score.

<div style="background-color:#8B0000"> Na deze stap heb je de sentimentscore van de review bepaald!</div>

In [47]:
""" VOORBEELD
Overzicht review:
    - nieuw - ADJ: 0.575
    - concept - NOUN: 0
    - in - ADP: combinatie bestaat niet.
    ...
De sentimentscore van de tekst is *BEPAAL ZELF*
"""

sentiment_score = 0

for index, woord in enumerate(review_lemmas):
    if woord in lexicon:
        if review_soort[index] in lexicon[woord]:
            sentiment_score += lexicon[woord][review_soort[index]]
print(sentiment_score)
# VUL VERDER AAN

3.783333333333333


- Beantwoord volgende vragen: <div style="background-color:#008000"> 
    - Welke sentimentscore is behaald?   3.7833...
    - Vindt de AI deze review positief of negatief?  positief
    - Lees de review na (zie hieronder). Was de AI correct (indien nee, hoe komt dit)?   nee, de review is deels sarcastisch
</div>

In [None]:
review = "Nieuw concept in Gent, maar dat kan volgens mij toch beter. De meeste cornflakes waren gewoon de basic soorten. Ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. En als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie..."

## Slotvraag

We blikken even terug op deze pagina. Volgende zaken zijn gezien:
- Lexicon inladen
- preprocessing (van review):
    - lowercasing
    - tokenisering
    - woordsoort taggen
    - lemma bepalen
- Sentimentanalyse uitvoeren

Welke van deze zaken kan reeds automatisch gebeuren. Welke van deze zaken moesten manueel opgesteld worden?
<div style="background-color:#008000">
Automatisch:    een sedimentscore voorzien
<br>Manueel:    het lexicon  
</div>

De manuele zaken zijn in dit geval gegeven. Deze zelf doen zou te veel tijd kosten, het is dan ook nog niet praktisch om andere reviews te verwerken. In het volgende deel **3_ML_sentiment.ipynb**, zien we daarom hoe ook deze zaken te automatiseren!

#
  <a href="https://www.aiopschool.be/chatbot/"> 
        <img src="../_afbeeldingen/bannerugentdwengo.png" alt="Dwengo" style ="display: block; margin-left: auto; margin-right: auto; margin-bottom: 30px; width:20%"/>
    </a>

Deze Notebook is gebaseerd op: Notebook Chatbot, zie <a href="http://www.aiopschool.be">AI Op School</a>, van S. Pletinck , F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 