In [1]:
import numpy as np
import nltk
import string
import random
import spacy
from spacy.lang.sv.examples import sentences
import PyPDF2

In [2]:
# Function that reads .txt-files
def read_file(filepath):
    with open(filepath) as f:
        str_text = f.read()
    return str_text

In [3]:
# Create file object variable (opening method will be rb)
pdffileobj=open('personalhandboken.pdf','rb')

In [4]:
# Create reader variable that will read the pdffileobj
pdfreader = PyPDF2.PdfReader(pdffileobj)

In [5]:
# This will store the number of pages of this pdf file
x = len(pdfreader.pages)
x

40

In [6]:
# Create a variable that will select the selected number of pages
page = pdfreader.pages[0]
text = page.extract_text()

In [7]:
complete_text = ''
for i in range(0, x):
    page = pdfreader.pages[i]
    text = page.extract_text()
    complete_text = complete_text + text    

In [8]:
raw_doc = complete_text.lower() # converting enitre text to lowercase

In [9]:
# Download tokenizer packages for swedish
nlp = spacy.load('sv_core_news_sm')

In [10]:
# Go trough the text. make it to lower case and remove punctuation like new lines, commas etc.
def separate_punc(doc_text):
    return [token.text.lower() for token in nlp(doc_text) if token.text not in ' \n \n  \n\n\n \n\n\n!"-#$%&()--.*+,-/:;<=>?@[\\]^_{|}~\t\n� ']

In [11]:
tokens = separate_punc(complete_text)

In [12]:
len(tokens)

11629

In [13]:
# Create a sequence of tokens
# Give the network 25 words --> predict the next word (the #26 word)
train_len = 25 + 1
text_sequences = []

for i in range(train_len, len(tokens)):
    seq = tokens[i - train_len:i]
    text_sequences.append(seq)

In [8]:
nltk.download('punkt') # using the punkt tokenizer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\emch\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [9]:
nltk.download('wordnet') # using the wordnet dictionary

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\emch\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [10]:
nltk.download('omw-1.4') # using the punkt tokenizer

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\emch\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [71]:
sentence_tokens = nltk.sent_tokenize(raw_doc)

In [34]:
word_tokens = nltk.word_tokenize(raw_doc)

In [15]:
# Text-processing
lemmer = nltk.stem.WordNetLemmatizer()

In [16]:
ready_tokens = []
for token in tokens:
    l = lemmer.lemmatize(token)
    if token not in '  \n \n  \n \n \n  \n\n\n \n\n\n!"-#$%&()--.*+,-/:;<=>?@[\\]^_{|}~\t\n�u ':
        ready_tokens.append(l)

In [73]:
# Tokenization
def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]

In [18]:
remove_punc_dict = dict((ord(punct), None) for punct in string.punctuation)

In [75]:
# Remove stop words
def LemNormalize(text):
    test = LemTokens(nltk.word_tokenize(text.lower().translate(remove_punc_dict)))
    print(test)
    return test

In [76]:
greet_inputs = ('hej', 'hejsan', 'hur är läget?', 'halloj?', 'Hej', 'Hejsan', 'Hur är läget?', 'Halloj')

In [77]:
greet_responses = ('Hej!', 'Hejsan!', 'Hej där!', 'Hej på dig!!')

In [78]:
def greet(sentence):
    for word in sentence.split():
        if word.lower() in greet_inputs:
            return random.choice(greet_responses)

In [79]:
from sklearn.feature_extraction.text import TfidfVectorizer # convert text to number (numeric representation)
from sklearn.metrics.pairwise import cosine_similarity

In [80]:
def response(user_response):
    robo1_response = ''
    TfidfVec = TfidfVectorizer(tokenizer = LemNormalize, stop_words = 'english')
    tfidf = TfidfVec.fit_transform(sentence_tokens)
    vals = cosine_similarity(tfidf[-1], tfidf)
    idx = vals.argsort()[0][-2]
    flat = vals.flatten()
    flat.sort()
    req_tfidf = flat[-2]
    if(req_tfidf == 0):
        robo1_response = robo1_response + 'Jag är ledsen. Jag är inte förmögen till att förstå din fråga!'
        return robo1_response
    else:
        robo1_response = robo1_response + sentence_tokens[idx] + '\n'
        return robo1_response

In [None]:
# Defining chatflow / botflow
flag = True
print('Hej! Jag är en bot som kan svara på frågor kring personalhandboken. Säg hej till mig för att starta igång mig. Skriv hej då för att avsluta.')
while(flag == True):
    user_response = input()
    user_response = user_response.lower()
    if(user_response != 'hej då'):
        if(user_response == 'tack' or user_response == 'tackar'):
            flag = False
            print('Bot: You are welcome...')
        else:
            if(greet(user_response) != None):
                print('Bot: ' + greet(user_response))
            else:
                sentence_tokens.append(user_response)
                word_tokens = word_tokens + nltk.word_tokenize(user_response)
                final_words = list(set(word_tokens))
                print('Bot: ', end = '')
                print(response(user_response))
                sentence_tokens.remove(user_response)
    else:
        flag = False 
        print('Bot: Hej då - på återseende!')

Hej! Jag är en bot som kan svara på frågor kring personalhandboken. Säg hej till mig för att starta igång mig. Skriv hej då för att avsluta.
hej
Bot: Hej!
vad får man för ersättning på decerno?




Bot: Jag är ledsen. Jag är inte förmögen till att förstå din fråga!
var är decerno?
Bot: Jag är ledsen. Jag är inte förmögen till att förstå din fråga!
