<img src="images/bannerugentdwengo.png" alt="Dwengo" width="250"/>

<div>
    <font color=#690027 markdown="1">
        <h1>SOORTEN CHATBOTS</h1> 
    </font>
</div>

<div class="alert alert-box alert-success"> 
    In deze notebook leer je hoe een eenvoudige, regelgebaseerde chatbot wordt opgebouwd. <br>
    Je ondervindt wat de mogelijkheden en de beperkingen zijn van zo'n chatbot. 
</div>

<div>
    <font color=#690027 markdown="1">
        <h3>Soorten chatbots</h3> 
    </font>
</div>

In het domein van de artificiële intelligentie onderscheidt men regelgebaseerde en lerende systemen, zo ook in het deelgebied van de chatbots.

De *regelgebaseerde* chatbots worden geprogrammeerd met een set regels, ze volgen als het ware een script. 
Die robots kan je vergelijken met een online enquête: nuttig en eenvoudig, maar niet heel flexibel.

Een tweede grote groep zijn de *lerende* chatbots. Deze hebben steeds een (grote) hoeveelheid voorbeeldtekst nodig
die ze analyseren en waaruit ze leren hoe een conversatie werkt. Het leren zelf kan op vele manieren gebeuren. <br>
Sommige zullen bv. een basiskennis van taal verwerven en snappen dat "katje" en "kat" in grote mate over hetzelfde gaat.
Andere lerende chatbots (zoals bijvoorbeeld deze gebaseerd op GPT-2) gebruiken *deep learning* om echt te begrijpen hoe taal werkt en wat het beste antwoord is.
Deze chatbots kunnen compleet nieuwe antwoorden verzinnen.

In deze notebook programmeer je eerst een zeer eenvoudige, regelgebaseerde chatbot die werkt zoals een woordenboek (of *dictionary*). Voor elke vraag of zin die de gebruiker stelt, zoekt de chatbot het bijbehorende antwoord op. Staat de vraag niet in het woordenboek, dan kan de chatbot daar niet mee overweg. Nadien verbeter je deze chatbot door hem te leren wat gelijksoortige vragen zijn. De robot slaat de tekst uit een conversatie op, en zoekt dan bij elke vraag in de database welke gekende vraag daar het meest op lijkt. Hiervoor gebruikt deze notebook het concept van de Levenshteinafstand.

<div>
    <font color=#690027 markdown="1">
        <h3>Waarom chatbots?</h3> 
    </font>
</div> 

Sommige mensen vinden het onaangenaam om met vreemden te praten om iets te regelen. <br>
Kan een chatbot voor hen een oplossing bieden? Wat zijn precies de voordelen, mocht je alles kunnen regelen via een goedwerkende chatbot? Geef enkele voorbeelden.

Antwoord:

### Nodige modules importeren

Voor je aan de slag gaat, voorzie je eerst de nodige tools. <br> Je importeert daartoe de nodige modules (dit hoef je maar één keer te doen). Deze modules bevatten functies en methodes die jouw onderzoek zullen vergemakkelijken. Er zijn immers reeds zaken voorgeprogrammeerd, waardoor jij met vrij eenvoudige instructies kunt werken.

Voer daartoe de code-cellen hieronder uit (je hoeft deze code niet in detail te begrijpen). 

In [None]:
import sys
!{sys.executable} -m pip install Levenshtein

In [None]:
from bot import ChatBot              # om chatbot aan te maken  
from util import test_bot            # om chatbot te testen
from Levenshtein import distance     # Levenshteinafstand

Nu ben je klaar voor stap 1: een basis chatbot.

<div>
    <font color=#690027 markdown="1">
        <h2>1. Een simpele chatbot aanmaken</h2> 
    </font>
</div>

<b>In deze paragraaf maak je een chatbot. Hoe die werkt, zie je later.</b>

Je vertrekt van een mogelijk gesprek bestaande uit vragen en overeenkomstige antwoorden. Dit gesprek wordt aan de computer gegeven in de vorm van een *dictionary*: de *sleutel (key)* is een 'vraag', de *waarde (value)* het 'antwoord' op die vraag. Je kan zelf extra vragen en antwoorden toevoegen.

In de volgende code-cel wordt met de variabele `conversatie` verwezen naar de *dictionary*. Voer de code-cel uit.

In [None]:
conversatie = {
               "Hallo": "Hi!",
               "Hoe gaat het met jou?": "Prima",
               "Wie ben jij?": "Marvin de robot",
               "Tot ziens": "Bye",
                # voeg hier eventueel andere vragen en antwoorden toe
              }

Aan de hand van de volgende code-cel test je deze *dictionary* eens uit. 

In [None]:
# vraag en antwoord
conversatie["Hoe gaat het met jou?"]

#### Opdracht 1.1
Voeg minstens drie vragen en overeenkomstige antwoorden toe aan de `conversatie`.

#### Opdracht 1.2

-  Je geeft een sleutel in en controleert of je het juiste antwoord terugkrijgt. 
-  Geef ook eens een onbestaande sleutel in, bv. "Tot wiens".

In [None]:
# vraag en antwoord
conversatie["Tot wiens"]

Wat valt je op aan het resultaat wanneer je een onbestaande sleutel ingeeft? Hoe verklaar je dit? 

Antwoord:

<div class="alert alert-box alert-info"> 
    Op deze manier werken - enkel op basis van een <em>dictionary</em> - is natuurlijk zeer beperkt. Er kan enkel een antwoord verstrekt worden op een vraag die letterlijk   overeenkomt met een sleutel. Meer mogelijkheden krijg je als je een chatbot traint.  
</div>

Door de volgende code-cel uit te voeren, maak je een chatbot aan, die je kan trainen. Je kan de naam van de chatbot zelf kiezen; hier werd ervoor gekozen om de robot Marvin te noemen. Verander gerust deze naam, als je dat wenst.

In [None]:
# chatbot genereren
bot = ChatBot("Marvin")

Op dit moment is het brein van deze robot nog leeg: Marvin heeft geen enkel idee hoe een conversatie eruitziet.<br>
Om hem dit aan te leren, zal je hem trainen met een voorbeeldgesprek. Dit gesprek noemt men de *trainingsdata*.

Als trainingsdata gebruik je de *dictionary* `conversatie` van hierboven.

Door de volgende code-cel uit te voeren, train je de chatbot op basis van de trainingsdata.

In [None]:
# trainen van de bot
bot.train(conversatie)

Om te kijken of het werkt, bekijk je hoe hij reageert als iemand "Hallo" zegt:

In [None]:
print(bot.get_response("Hallo"))

#### Opdracht 1.3: korte test

-  Geef ook eens een onbestaande, maar gelijkende vraag in.
-  Geef ook eens een onbestaande en niet-gelijkende vraag in.

#### Opdracht 1.4: uitgebreide test

De instructie in de volgende code-cel laat je een vraag stellen aan de chatbot en toont het antwoord, steeds opnieuw. Als je "stop" typt, stopt deze lus.

Probeer eerst eens enkele vragen te stellen die letterlijk in de trainingsdata staan. Probeer dan eens een vraag met een kleine variatie en tot slot een vraag die er absoluut niet in staat.

In [None]:
test_bot(bot)

Wat valt je deze keer op als je een vraag stelt die helemaal niet in de trainingsdata staat? Hoe verschilt dit met de chatbot uit opdracht 1.2? Het is duidelijk dat een robot trainen niet zo vanzelfsprekend is!

Antwoord:

#### Opdracht 1.5
- Stop de testconversatie door *stop* te typen. 
- Voeg nog eens twee vragen en antwoorden toe aan de *dictionary* en train de robot opnieuw. Werkt het?

Antwoord:

<div class="alert alert-box alert-info"> 
    Een simpele manier om te bepalen welk antwoord het beste is, is opzoeken welke vraag in de trainingsdata het meest lijkt op de vraag die gesteld is en dan het bijbehorende antwoord terug te geven. Dit is bijzonder handig indien de vraag niet letterlijk voorkomt in de trainingsdata van de chatbot. Aangezien mensen hun conversaties op ettelijke manieren kunnen voeren, is dit noodzakelijk voor een goede chatbot. 
</div>

In wat volgt, bekijk je hoe een chatbot kan bepalen wat het best passende antwoord is op een ongekende vraag.

<div>
    <font color=#690027 markdown="1">
        <h2>2. Hoe bepaalt de chatbot het beste antwoord?</h2> 
    </font>
</div>


<div>
    <font color=#690027 markdown="1">
        <h3>2.1 Levenshteinafstand</h3> 
    </font>
</div>


Op welke manier kan de chatbot bepalen hoe hard twee zinnen op elkaar lijken? <br>Er zijn meerdere manieren; deze notebook gebruikt een eenvoudige manier, nl. de Levenshteinafstand.<br>
De Levenshteinafstand is gelijk aan het aantal letters dat je moet veranderen om de twee zinnen (of woorden) gelijk te maken aan elkaar.

#### Voorbeeld

Stel dat we de woorden 'kitten' en 'koken' willen vergelijken. 
Verander steeds 1 letter tot 'kitten' aangepast is naar 'koken':
 - kitten en koken
 - kotten en koken
 - koten en koken
 - koken en koken

Er waren $3$ aanpassingen nodig, dus de Levenshteinafstand is $3$. 

Omdat niet alle woorden en zinnen even lang zijn, en bv. slechts 2 aanpassingen moeten doen in een lang woord eigenlijk een betere gelijkenis weergeeft dan 2 aanpassingen moeten doen in een kort woord, wordt er ook nog eens gedeeld door de lengte van het langste woord (de langste zin). Hier heeft 'kitten' 6 letters en 'koken' slechts 5, dus er wordt gedeeld door 6. Zo bekom je een afstand die geschikt is om gestelde en gekende vragen met elkaar te gaan vergelijken.<br> 
Hier is de afstand $3$ gedeeld door $6$, dus $0,5$.

De gebruikte afstand heeft steeds een waarde tussen $0$ en $1$.

<div>
    <font color=#690027 markdown="1">
        <h3>2.2 Antwoord selecteren</h3> 
    </font>
</div>

Hoe kiest de chatbot het antwoord op een vraag?<br>

De chatbot overloopt elke vraag in de trainingsdata en bepaalt telkens de afstand van de gestelde vraag tot de vraag in de trainingsdata. Hij onthoudt ook steeds de vraag die de kleinste afstand geeft.

De gebruikte afstand ligt tussen $0$ en $1$. $0$ betekent dat de twee teksten perfect overeenkomen en $1$ betekent dat ze volledig verschillend zijn.

In de volgende code-cel gebruik je de *dictionary* vraag_en_antwoord om deze techniek uit te testen op de zin *Tot wiens*, een vraag die niet in de *dictionary* staat.

In [None]:
# dictionary met vragen en overeenkomstige antwoorden
vraag_en_antwoord = {
                     "Is dit leuk?": "ja!",
                     "Is dit saai?": "nee!",
                     "Leer je iets?": "Misschien",
                     "Tot ziens": "Bye",
                     "Hoe gaat het met jou?": "Prima",
                    }

# iemand stelt deze vraag
vraag = "Tot wiens"

kleinste_afstand = 9999
beste_vraag = ""
beste_antwoord = "geen antwoord"

# zoek in lijst met gekende vragen welke vraag het meest lijkt op gestelde vraag
for gekende_vraag, antwoord in vraag_en_antwoord.items():
    # voor elke gekende vraag, bereken afstand tot gestelde vraag
    afstand = distance(gekende_vraag, vraag) / max(len(gekende_vraag), len(vraag))
    print(gekende_vraag, "heeft afstand", afstand)
    
    # als huidige afstand kleiner is dan kleinste_afstand
    if afstand < kleinste_afstand:
        # dan deze afstand is nieuwe kleinste_afstand
        kleinste_afstand = afstand
        # en huidige vraag is momenteel beste_vraag
        # en huidig antwoord is momenteel beste_antwoord
        beste_antwoord = antwoord
        beste_vraag = gekende_vraag

print("Je vroeg: ", vraag)
print("Dat lijkt het beste op: ", beste_vraag)
print("Het antwoord is: ", beste_antwoord)

#### Opdracht 2.1
Verandert het antwoord als je de vraag volledig in kleine letters ingeeft?

Antwoord:

#### Opdracht 2.2
Probeer de bovenstaande code-cel ook eens uit met een andere vraag.

#### Opdracht 2.3
Weet je nu waarom de chatbot soms vreemde antwoorden gaf? Hoe zou je dat kunnen verhelpen?

Antwoord:

<div>
    <font color=#690027 markdown="1">
        <h2>3. Een praktisch voorbeeld</h2> 
    </font>
</div>

Nu zal je een robot maken die iets nuttigs doet, nl. enkele vragen stellen aan iemand die een vaccin wil halen.
<br>
De chatbot slaat automatisch de volledige conversatie op, zodat een dokter deze info later kan bekijken.

Let erop dat sommige regels in `medische_conversatie` hieronder vragen zijn aan de chatbot en andere regels antwoorden op vragen van de chatbot zijn. Voor sommige antwoorden aan de chatbot zijn meerdere alternatieven voorzien.

In [None]:
# dit voorbeeld omvat een automatische vragenlijst betreffende vaccinatie
medische_conversatie = {
    "Hallo": "Goeiedag, wat is uw naam?",
    "Mijn naam is ": "Wat is de code op uw vaccinatiebrief?",
      "Ik heet ": "Wat is de code op uw vaccinatiebrief?",
    "Waar staat de code?": "De code staat rechtsboven op de brief. Wat is het cijfer?",
      "Mijn code is ": "Wilt u uw afspraak bevestigen of annuleren?",
      "Mijn getal is ": "Wilt u uw afspraak bevestigen of annuleren?",
    "Annuleren": "Oké, bedankt voor de verwittiging. U kan altijd bellen om uw afspraak te verplaatsen.",
      "Bevestigen": "Oké, bent u recent ziek geweest?",
    "Ja": "Dan moet u helaas uw afspraak verplaatsen, gelieve het kantoor te bellen.",
      "Neen": "Oké, welke medicatie neemt u? Reageer 'geen medicatie' als u geen medicatie neemt aub.",
    "Geen medicatie": "Bedankt, ik geef het door. Een prettige dag nog.",
    "Waar kan ik parkeren?": "Er staan pijlen naar de verschillende parkings in de buurt.",
                       }

Je maakt een nieuwe chatbot die je a.d.h.v. deze trainingsdata traint.

In [None]:
medibot = ChatBot("MediBot")

medibot.train(medische_conversatie)

Probeer hieronder de medische chatbot eens uit. 

In [None]:
test_bot(medibot)

#### Opdracht 3.1
-  Waar reageert hij fout op?
-  Stelt de robot alle vragen? Waarom wel of niet? Overloopt de robot alles in een logische volgorde?

Antwoord:

#### Opdracht 3.2
Denk zelf na over wat nuttige vragen kunnen zijn die de patiënt en de chatbot kunnen stellen en bedenk ook antwoorden op deze vragen. Probeer zeker zelf ook dingen uit door de *dictionary* `medische_code` uit te breiden.<br>
Als je meerdere vragen wilt die hetzelfde antwoord geven, typ je het antwoord twee keer in, zoals hieronder met de zin '*Wat is de code op uw vaccinatiebrief?*'.<br>
Train en test de chatbot nogmaals. 

<div class="alert alert-box alert-danger"> 
    Als je de trainingsset aanpast na de training, dan moet je de training opnieuw uitvoeren om de nieuwe data aan de chatbot te leren. 
</div>

#### Opdracht 3.3
Hieronder vind je een voorbeeld van een conversatie die even goed ging, maar dan de mist inging.<br>
Waarom vond de robot geen goed antwoord? Kan je de trainingsconversatie aanpassen zodat het wel werkt?
```
Hallo
> goeiedag, wat is uw naam?
mijn naam is Stef.
> wat is het cijfer op uw vaccinatiebrief?
waar staat het?
> het cijfer staat rechtsboven op de brief. wat is het cijfer?
mijn cijfer is 123
> Wilt u uw afspraak bevestigen of annuleren?
bevestigen
> Oké, bent u recent ziek geweest?
nee hoor
> Oké, welke medicatie neemt u? Reageer 'geen medicatie' als u geen medicatie neemt aub.
Ik neem hoestsiroop
> Wat is de code op uw vaccinatiebrief?
Dat heb ik je al gezegd?
> Er staan pijlen naar de verschillende parkings in de buurt.
Huh?
> Goeiedag, wat is uw naam?
```

Antwoord:

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>
Notebook Chatbot, zie <a href="http://www.aiopschool.be">AI Op School</a>, van S. Pletinck , F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 