<img src="images/bannerugentdwengo.png" alt="BannerUGentDwengo" width="250"/>

<div>
    <font color=#690027 markdown="1">
        <h1>AI-MODEL VOOR SENTIMENTANALYSE</h1> 
    </font>
</div>

<div class="alert alert-box alert-success">
In deze notebook zal je bij gegeven teksten (de data) onderzoek doen naar sentimentwoorden m.b.v. kunstmatige intelligentie (KI of AI). Je zal immers een <em>machine learning</em>-model gebruiken. Dit model werd getraind met geannoteerde teksten en kan met grote nauwkeurigheid een tekst tokeniseren en van elk token de part-of-speech tag en het lemma bepalen. Je gebruikt een <em>regelgebaseerd AI-systeem</em> om het sentiment van de gegeven tekst te bepalen. 
</div>

In de vorige notebook, 'Regelgebaseerde sentimentanalyse', maakte je kennis met de principes van een regelgebaseerde sentimentanalyse: 

 -  Je maakt gebruik van een (bestaand) **lexicon** of woordenboek met daarin woorden gekoppeld aan hun **polariteit** (positief, negatief of neutraal).
 -  Voor je sentimentwoorden uit een lexicon kunt matchen met de data moet je de data inlezen en **voorverwerken (preprocessing)**.
 -  Veelvoorkomende preprocessing stappen zijn **lowercasing**, **tokenisering**, **part-of-speech tagging** en  **lemmatisering**.
 
In de vorige notebook waren nog niet alle stappen geautomatiseerd. Lemmatisering en part-of-speech tagging moesten manueel gebeuren. 

<div class="alert alert-box alert-success">
In deze notebook zal je de uitvoer van de sentimentanalyse volledig <b>automatiseren</b>. Je zal m.a.w. de computer het werk laten doen: de computer zal de data voorverwerken met een <em>machine learning-model (ML-model)</em>, en met een <em>regelgebaseerd AI-systeem</em> de tokens matchen met het gegeven lexicon en een eindbeslissing nemen over het sentiment van de gegeven tekst. 
</div>

### Modules, model en lexicon inladen 

Voor je aan de slag gaat, voorzie je eerst de nodige tools:

-  Je importeert de nodige modules (dit hoef je maar één keer te doen). <br>Deze modules bevatten functies en methodes die jouw onderzoek zullen vergemakkelijken. Er zijn immers reeds zaken voorgeprogrammeerd, waardoor jij met vrij eenvoudige instructies kunt werken.
-  Je laadt een machine learning-model in om straks te gebruiken.
-  Je leest ook al een sentimentlexicon in. 

Voer daartoe de drie code-cellen hieronder uit. De code in deze cellen hoef je niet te begrijpen.

In [None]:
# spacy installeren
!pip install spacy

In [None]:
# modules importeren
import pickle                     # voor lexicon
from colorama import Fore, Back   # om in kleur te kunnen tonen
import spacy                      # voor machine learning-model voor voorverwerking

In [None]:
# dataset downloaden
!python -m spacy download nl_core_news_sm

In [None]:
# machine learning-model inladen
nlp = spacy.load("nl_core_news_sm")    # nlp staat voor Natural Language Processing

In [None]:
# lexicon inlezen, bestand 'new_lexicondict.pickle' bevat sentimentlexicon 
with open("data/new_lexicondict.pickle", "rb") as file: 
    lexicon = pickle.load(file)

Zo, je bent klaar voor stap 1: de data inlezen en bekijken. 

<div>
    <font color=#690027 markdown="1">
        <h2>1. De data inlezen</h2> 
    </font>
</div>

Voor deze opdracht zal je werken met dezelfde **klantenreview** als in de notebook 'Regelgebaseerde sentimentanalyse'. 

Stap 1: voer de volgende code-cel uit om de review in te lezen en vervolgens te bekijken.

In [None]:
review = "Nieuw concept in Gent, maar dat kan volgens mij toch beter. De meeste cornflakes waren gewoon de basic soorten. Ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. En als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie."
print(review)

Je bent klaar voor stap 2. 

In wat volgt laat je de computer al de voorverwerking op de review uitvoeren: lowercasing hadden we al geautomatiseerd in 'Regelgebaseerde sentimentanalyse'. Die code neem je over.  

Je moet geen spaties toevoegen in de tekst, want het machine learning-model zorgt voor het tokeniseren. Ook het part-of-speech taggen en lemmatiseren worden nu geautomatiseerd m.b.v. het model.

<div>
    <font color=#690027 markdown="1">
        <h2>2. Preprocessing</h2> 
    </font>
</div>

### Lowercasing

In [None]:
# zet tekst van review om naar tekst in kleine letters
review_kleineletters = review.lower()  

### Tokenisering, part-of-speech taggen en lemmatisering

De review **tokeniseren** en aan elk token een **part-of-speech** en een **lemma** toekennen, gebeurt automatisch met behulp van een daarvoor getraind model met een accuraatheid van 93 %! 

Je voert daarvoor de review (in kleine letters) in in het ML-model `nlp`.

In [None]:
# review in kleine letters in model voeren
review_voorverwerkt = nlp(review_kleineletters)

Van de review zijn nu de tokens bepaald en van elk token is het woord (of leesteken) zelf, de woordsoort (part-of-speech tag) en de woordenboekvorm (lemma) opgeslagen in een object waarnaar wordt verwezen door `review_voorverwerkt`.  <br>
    Je kan nu de kenmerken van tokens opvragen: het woord/leesteken via de instructie `token.text`, de woordsoort via `token.pos_` en de woordenboekvorm via `token.lemma_`.

#### Van elk token de woordsoort en de woordenboekvorm tonen

In [None]:
# tokens
for token in review_voorverwerkt:
    print(token.text)

In [None]:
# part-of-speech tag van elk token
for token in review_voorverwerkt:
    print(token.text + ": " + token.pos_)

In [None]:
# lemma van elk token
for token in review_voorverwerkt:
    print(token.text + ": " + token.lemma_)

### Maak lijsten van de tokens, lemma's en part-of-speech tags.

In 'Regelgebaseerde sentimentanalyse' waren de lijsten van de lemma's en part-of-speech tags manueel opgemaakt. Nu kan dit automatisch omdat alle nodige info verzameld is in het object waarnaar de variabele `review_voorverwerkt` verwijst.

In [None]:
# oplijsten
tokens = []
lemmas = []
postags = []
for token in review_voorverwerkt:
    tokens.append(token.text)      # voeg elk token toe aan lijst van tokens
    lemmas.append(token.lemma_)    # voeg elk lemma toe aan lijst van lemma's
    postags.append(token.pos_)     # voeg elke part-of-speech tag toe aan lijst van postags

# lijsten tonen
print("tokens:")
print(tokens)
print("lemma's:")
print(lemmas)
print("part-of-speech tags:")
print(postags)

<div>
    <font color=#690027 markdown="1">
        <h2>3. Sentiment lexicon matching</h2> 
    </font>
</div>

Nu de review *gepreprocessed* is, kan je het sentiment bepalen met behulp van het sentimentlexicon dat je ter beschikking hebt. Dit was reeds geautomatiseerd in 'Regelgebaseerde sentimentanalyse'. Je neemt de code van 'Regelgebaseerde sentimentanalyse' over.

In [None]:
# zoek matches met lexicon in review
lexiconmatches = []       # lege lijst, op te vullen met tokens van de lemma's gevonden in lexicon
polariteiten = []         # lege lijst, op te vullen met polariteiten van gevonden tokens 

# beschouw lemma's met overeenkomstige woordsoort en token
for lemma, postag, token in zip(lemmas, postags, tokens):
    if lemma in lexicon.keys() and postag in lexicon[lemma]["postag"]:  
            lexiconmatches.append(token)                      # overeenkomstig token toevoegen aan lijst lexiconmatches
            if postag == lexicon[lemma]["postag"][0]:
                polariteiten.append(lexicon[lemma]["polarity"][0])
            else:
                polariteiten.append(lexicon[lemma]["polarity"][1])
                # overeenkomstige polariteit toevoegen aan lijst polariteiten
    # lemma moet aanwezig zijn in lexicon
    # alleen wanneer het lemma en de POS-tag overeenkomen, is er een match (zie bv. 'fout' als ADJ en 'fout' als NOUN) 

# polariteit review
polariteit = sum(polariteiten)

# eindbeslissing voor deze review
if polariteit > 0:
    sentiment = "positief"
elif polariteit == 0:
    sentiment = "neutraal"
elif polariteit < 0:
    sentiment = "negatief"
print("De polariteit van de review is: " + str(polariteit))
print("Het sentiment van de review is " + sentiment + ".")    

<div>
    <font color=#690027 markdown="1">
        <h2>4. Oefening: Sentiment lexicon matching op eigen review</h2> 
    </font>
</div>

Je kan dit ook doen voor een zelfgeschreven review en de output van het systeem vergelijken met je eigen annotatie.

In [None]:
# plaats zelfgeschreven review tussen aanhalingstekens, pas dus gegeven string aan
zelfgeschreven_review = "Hopelijk wordt dit een leuke notebook!"
# vul polariteit in tussen aanhalingstekens (positief, negatief, neutraal), pas dus ook hier gegeven string aan
label = "positief"

# volgende stappen: review tonen en nlp() erop toepassen
print(zelfgeschreven_review)
review = nlp(zelfgeschreven_review.lower())

# elk woord in review tonen met woordsoort en part-of-speech tag en opslaan in lijsten
tokens = []
lemmas = []
postags = []
for token in review:
    tokens.append(token.text)
    lemmas.append(token.lemma_)
    postags.append(token.pos_)

print("tokens:")
print(tokens)
print("lemma's:")
print(lemmas)
print("part-of-speech tags:")
print(postags)

Nu de preprocessing klaar is, kan je opnieuw matches zoeken met het lexicon.

In [None]:
# zoek matches met lexicon in review
lexiconmatches = []       # lege lijst, op te vullen met tokens van de lemma's gevonden in lexicon
polariteiten = []         # lege lijst, op te vullen met polariteiten van gevonden tokens 

# beschouw lemma's met overeenkomstige woordsoort en token
for lemma, postag, token in zip(lemmas, postags, tokens):
    if lemma in lexicon.keys() and postag in lexicon[lemma]["postag"]:  
            lexiconmatches.append(token)                      # overeenkomstig token toevoegen aan lijst lexiconmatches
            if postag == lexicon[lemma]["postag"][0]:
                polariteiten.append(lexicon[lemma]["polarity"][0])
            else:
                polariteiten.append(lexicon[lemma]["polarity"][1])
                # overeenkomstige polariteit toevoegen aan lijst polariteiten
    # lemma moet aanwezig zijn in lexicon
    # alleen wanneer het lemma en de POS-tag overeenkomen, is er een match (zie bv. 'fout' als ADJ en 'fout' als NOUN) 

# polariteit review
polariteit = sum(polariteiten)

# eindbeslissing voor deze review
if polariteit > 0:
    sentiment = "positief"
elif polariteit == 0:
    sentiment = "neutraal"
elif polariteit < 0:
    sentiment = "negatief"
print("De polariteit van de review is: " + str(polariteit))
print("Het sentiment van de review is " + sentiment + ".")    

Vergelijk de eindbeslissing van het regelgebaseerde systeem met je eigen annotatie. Heeft het systeem het juist? Waarom wel/niet, denk je?

Antwoord:

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>
Notebook Chatbot, zie <a href="http://www.aiopschool.be">AI Op School</a>, van C. Van Hee, V. Hoste, F. wyffels, Z. Van de Staey & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 