<img src="../.images/ChatbotSentiment/bannerUgentDwengo.png" alt="BannerUGentDwengo" style="width:250px;"/>

<div style='color: #690027;' markdown="1">
    <h1>SENTIMENTANALYSE</h1>
    <h1>deel 2</h1> 
</div>

<div class="alert alert-box alert-success">
In deze notebook zal je bij gegeven teksten (de data) onderzoek doen naar sentimentwoorden m.b.v. kunstmatige intelligentie (KI of AI). Je zal immers een <em>machine learning</em> model gebruiken. Dit model werd getraind met geannoteerde teksten en kan met grote nauwkeurigheid een tekst tokeniseren en van elk token de part-of-speech tag en het lemma bepalen. Je gebruikt een <em>regelgebaseerd AI-systeem</em> om het sentiment van de gegeven tekst te bepalen. 
</div>

In deel 1 maakte je kennis met de principes van een regelgebaseerde sentimentanalyse. 

 -  Je maakt gebruik van een (bestaand) **lexicon** of woordenboek met daarin woorden gekoppeld aan hun **polariteit** (positief, negatief of neutraal).
 -  Voor je sentimentwoorden uit een lexicon kunt matchen met de data moet je de data inlezen en **preprocessen**.
 -  Veelvoorkomende preprocessing stappen zijn **lowercasing**, **tokenisering**,  **part-of-speech tagging** en  **lemmatisering**.

<div class="alert alert-box alert-success">
In deze notebook zal je de uitvoer van de sentimentanalyse <b>automatiseren</b>. Je zal m.a.w. de computer het werk laten doen: de computer zal de data voorbereiden met een <em>machine learning model</em>, en met een <em>regelgebaseerd AI-systeem</em> de tokens matchen met het gegeven lexicon en een eindbeslissing nemen over het sentiment van de gegeven tekst. 
</div>

### Modules, model en lexicon inladen 

Voor je aan de slag gaat, voorzie je eerst de nodige tools. 

-  Je importeert de nodige modules (dit hoef je maar één keer te doen). <br>Deze modules bevatten functies en methodes die jouw onderzoek zullen vergemakkelijken. Er zijn immers reeds zaken voorgeprogrammeerd, waardoor jij met vrij eenvoudige instructies kunt werken.
-  Je laadt een machine learning model in om straks te gebruiken.
-  Je leest ook al een sentimentlexicon in. 

Voer daartoe de drie code-cellen hieronder uit. De code in deze cellen hoef je niet te begrijpen.

In [None]:
# modules importeren
import pickle                     # voor lexicon
from colorama import Fore, Back   # om in kleur te kunnen tonen
import spacy                      # voor getrainde modellen voor preprocessing

In [None]:
# machine learning model inladen
nlp = spacy.load("nl_core_news_sm")    # nlp staat voor natural language processing

In [None]:
# lexicon inlezen 
with open("../.data/ChatbotSentiment/new_lexicondict.pickle", "rb") as f: # bestand 'lexicondict.pickle' in map 'lexicon' bevat sentimentlexicon
    lexicondict = pickle.load(f)

Zo, je bent klaar voor stap 1: de data inlezen en bekijken. 

<div style='color: #690027;' markdown="1">
    <h2>1. De data inlezen</h2> 
</div>

Voor deze opdracht zal je werken met dezelfde **klantenreview** als in deel 1. 

Stap 1: voer de volgende code-cel uit om de review in te lezen en vervolgens te bekijken.

In [None]:
review = "Nieuw concept in Gent, maar dat kan volgens mij toch beter. De meeste cornflakes waren gewoon de basic soorten. Ook wat duur voor de hoeveelheid die je krijgt, vooral met de toppings zijn ze zuinig. En als je ontbijt aanbiedt, geef de mensen dan toch ook wat meer keuze voor hun koffie."
print(review)

Je bent klaar voor stap 2. 

In wat volgt laat je de computer de preprocessing op de review uitvoeren: lowercasing hadden we al geautomatiseerd in deel 1. Die code neem je over.  

Je moet geen spaties toevoegen in de tekst, want het machine learning model zorgt voor het tokeniseren. Ook het part-of-speech taggen en lemmatiseren wordt nu geautomatiseerd m.b.v. het model.

<div style='color: #690027;' markdown="1">
    <h2>2. Preprocessing</h2> 
</div>

### Lowercasing

In [None]:
# zet tekst van de review om naar tekst in kleine letters met spaties voor en na de leestekens
review_kleineletters = review.lower()  # review met kleine letters schrijven  

### Tokenisering, part-of-speech taggen en lemmatisering

De review **tokeniseren** en aan elk token een **part-of-speech** en een **lemma** toekennen, gebeurt automatisch met behulp van een daarvoor getraind model met een accuraatheid van 93 %! 

Je voert daarvoor de review (in kleine letters) in in het model `nlp`.

In [None]:
# review_spatie in het model voeren
doc = nlp(review_kleineletters)

Van de review zijn nu de tokens bepaald en van elk token is het woord of leesteken zelf, de part-of-speech tag en het lemma opgeslagen in `doc`.  <br>
Je bekijkt nu de tokens, de part-of-speech tags en de lemma's.

#### Elk token

In [None]:
# token
for token in doc:
    print(f"token '{token}': {token.text}")

#### Part-of-speech tagging

In [None]:
# part-of-speech tag van elk token
for token in doc:
    print(f"part of-speech tag '{token}': {token.pos_}")

#### Lemmatisering

In [None]:
# lemma van elk token
for token in doc:
    print(f"lemma '{token}': {token.lemma_}")

### Maak lijsten van de tokens, lemma's en de part-of-speech tags.

In deel 1 waren de lijsten van de lemma's en part-of-speech tags manueel opgemaakt. Nu kan dit automatisch omdat alle nodige info verzameld is in `doc`.

In [None]:
# lijsten maken
tokens = []
lemmas = []
postags = []
for token in doc:
    tokens.append(token.text)      # voeg elk token toe aan lijst van tokens
    lemmas.append(token.lemma_)    # voeg elk lemma toe aan lijst van lemma's
    postags.append(token.pos_)     # voeg elke part-of-speech tag toe aan lijst 'postags'

# lijsten tonen
print("tokens:")
print(tokens)
print("lemma's:")
print(lemmas)
print("part-of-speech tags:")
print(postags)

<div style='color: #690027;' markdown="1">
    <h2>3. Sentiment lexicon matching</h2> 
</div>

Nu je review *gepreprocessed* is, kan je het sentiment bepalen met behulp van het sentiment lexicon dat je ter beschikking hebt. Dit was reeds geautomatiseerd in deel 1. Je neemt de code van deel 1 over.

In [None]:
# zoek lexicon matches in de review
lexiconmatches = []       # lijst tokens gevonden in lexicon
polariteiten = []         # lijst polariteiten van gevonden tokens  

i = 0      # index;  index = 0 komt overeen met eerste lemma en eerste postag
for lemma in lemmas:
    if lemma in lexicondict.keys():  # sleutels zijn woorden aanwezig in lexicon
        if postags[i] in lexicondict[lemma]["postag"]: # alleen wanneer het lemma en de POS-tag overeenkomen, is er een match (zie bv. 'fout als ADJ en 'fout' als NOUN)
            lexiconmatches.append(tokens[i])           # overeenkomstig token toevoegen aan lijst lexiconmatches
            polariteiten.append(sum(lexicondict[lemma]["polarity"]))   # overeenkomstige polariteit toevoegen aan lijst polariteiten
    i = i + 1  # ga over naar volgende lemma, dus lemma met als index eentje meer          

# toon eindbeslissing voor deze review: de som van alle polariteiten
if sum(polariteiten) > 0:
    sentiment = "positief"
elif sum(polariteiten) == 0:
    sentiment = "neutraal"
elif sum(polariteiten) < 0:
    sentiment = "negatief"
print("Het sentiment van de review is: " + sentiment)  

<div style='color: #690027;' markdown="1">
    <h2>4. Sentiment lexicon matching op eigen review</h2> 
</div>

Je kan dit ook doen voor een zelfgeschreven review en de output van het systeem vergelijken met je eigen annotatie.

In [None]:
# vul je review in tussen de aanhalingstekens, pas dus de gegeven string aan
zelfgeschreven_review = "Hopelijk wordt dit een leuke notebook!"
# vul de polariteit in tussen de aanhalingstekens (positief, negatief, neutraal), pas ook hier de gegeven string aan
label = "positief"

# volgende stappen: review tonen en nlp erop toepassen
print(zelfgeschreven_review)
doczg = nlp(zelfgeschreven_review.lower())

# elk woord in review tonen met woordsoort en part-of-speech tag en opslaan in lijsten
tokenszg = []
lemmaszg = []
postagszg = []
for token in doczg:
    tokenszg.append(token.text)
    lemmaszg.append(token.lemma_)
    postagszg.append(token.pos_)

print("tokens:")
print(tokenszg)
print("lemma's:")
print(lemmaszg)
print("part-of-speech tags:")
print(postagszg)

Nu de preprocessing klaar is kan je opnieuw matches zoeken met het lexicon.

In [None]:
# zoek lexicon matches in de review
lexiconmatcheszg = []       # lijst tokens gevonden in lexicon
polariteitenzg = []         # lijst polariteiten van gevonden tokens  

i = 0      # index;  index = 0 komt overeen met eerste lemma en eerste postag
for lemma in lemmaszg:
    if lemma in lexicondict.keys():  # sleutels zijn woorden aanwezig in lexicon
        if postagszg[i] in lexicondict[lemma]["postag"]: # alleen wanneer het lemma en de POS-tag overeenkomen, is er een match (zie bv. 'fout als ADJ en 'fout' als NOUN)
            lexiconmatcheszg.append(tokenszg[i])           # overeenkomstig token toevoegen aan lijst lexiconmatches
            polariteitenzg.append(sum(lexicondict[lemma]["polarity"]))   # overeenkomstige polariteit toevoegen aan lijst polariteiten
    i = i + 1  # ga over naar volgende lemma, dus lemma met als index eentje meer          

# toon eindbeslissing voor deze review: de som van alle polariteiten
if sum(polariteitenzg) > 0:
    sentiment = "positief"
elif sum(polariteitenzg) == 0:
    sentiment = "neutraal"
elif sum(polariteitenzg) < 0:
    sentiment = "negatief"
print(polariteitenzg)
print(sum(polariteitenzg))
print("Het sentiment van de review is: " + sentiment)  

Vergelijk de eindbeslissing van het regelgebaseerde systeem met je eigen annotatie. Heeft het systeem het juist? Waarom wel/niet, denk je?

<img src="../.images/ChatbotSentiment/cclic.png" alt="Banner" align="left" style="width:100px;"/><br><br>
Notebook Chatbot, zie <a href="http://www.aiopschool.be">AI Op School</a>, van C. Van Hee, V. Hoste, F. wyffels, Z. Van de Staey & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 