# Compare the Wiki and the Ionesoft corpus

In [41]:
import warnings
warnings.filterwarnings('ignore')

## Ionesoft ticket corpus
These are the labeled tickets from ionesoft.

In [42]:
import pandas as pd

extract = './ionesoft_tickets_corrected_grammar.csv'
names=['ticket', 'type', 'client', 'issuer', 'inquiry', 'answer']

corpus = pd.read_csv(extract, sep=',', encoding='utf-8', names=names, skiprows=[0])
corpus['ticket'] = corpus['ticket'].astype(str)

corpus.head()

Unnamed: 0,ticket,type,client,issuer,inquiry,answer
0,2019030563000120.0,Fehler in der App,SVBA,3,ich kann die bilder in übungen nicht bearbeite...,Fehlerbericht senden
1,2019030463000110.0,Fehler in der App,FOMA,3,lückentexte weg daten verloren gegangen von pp...,Fehlerbericht senden
2,2019022863000110.0,Anmeldung / Aktivierung,AGVS,3,bitte deaaktivieren sie dieses gerät. vielen d...,"Gerät entfernt, neu starten"
3,2019022863000020.0,Geräteanzahl überschritten,BEOOK,3,ich habe einen neuen laptop und möchte den alt...,"Gerät entfernt, neu starten"
4,2019022763000080.0,Geräteanzahl überschritten,BEOOK,3,offenbar habe ich die gerägeräteanzahl übersch...,"Gerät entfernt, neu starten"


Extract all words from the ticket texts.

In [43]:
for i in corpus[corpus['inquiry'].str.contains(r'\b' + 'apgemeldet' + r'\b', regex=True)]['inquiry']:
    print(i)

In [44]:
import nltk
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("german")

def nlp_pipeline(text):
    text = text.replace('\\','')
    tokens = nltk.word_tokenize(text)
    
    words = []
    for word in tokens:
        stem = stemmer.stem(word)
        
        if any(char.isdigit() for char in stem):
            continue
        
        words.append(stem)
    return words

words_tickets = []
for text in corpus.inquiry:
    words_tickets.extend(nlp_pipeline(text))

len(words_tickets)

32492

Then we extract the distinct words.

In [45]:
distinct_words = set(words_tickets)
len(distinct_words)

2572

## Wiki dump
These are the distinct words from the wikipedia extract.

In [46]:
import json

wiki_words = json.load(open('word2index-tfidf-normalized.ind', 'rb'))

len(wiki_words)

143605

## Compare the Wiki and the ticket corpus
Now we want to check how many words from the ticket corpus can be found in the wikipedia word list.

In [47]:
num_words = 0
missing_words = []

for word in distinct_words:
    if word in wiki_words:
        num_words = num_words + 1
    else:
        missing_words.append(word)

print(num_words)

1905


In [48]:
len(missing_words)

667

## Now let's check the unclassified tickets
Then we take a look at the tickets without labels.

In [49]:
unclassified = '../ionesoft_tickets/ionesoft_unclassified_texts.csv'

corpus_unclassified = pd.read_csv(unclassified, sep=',', encoding='ansi')
corpus_unclassified.head()

Unnamed: 0,inquiry
0,können sie mir bitte die homepage nennen auf d...
1,ich habe ein neues smartphone und wollte die t...
2,podcast lässt sich nicht abspielen. das wlan f...
3,obwohl ich eine lizenz über die schule habe ka...
4,aktivirungscode wird als ungültig gemeldet.


In [50]:
unclassified_words = []
for text in corpus_unclassified.inquiry:
    unclassified_words.extend(nlp_pipeline(text))

len(unclassified_words)

19312

In [51]:
distinct_unclassified_words = set(unclassified_words)
len(distinct_unclassified_words)

2372

In [52]:
num_words = 0
still_missing_words = []

for word in missing_words:
    if word in distinct_unclassified_words:
        num_words = num_words + 1
    else:
        still_missing_words.append(word)

print(num_words)

144


There are still some missing words.

In [53]:
len(still_missing_words)

523

In [54]:
still_missing_words[:5]

['kontaaktdat', 'aaktivierungsschlussel', 'gewerbe', 'livia', 'desaktoprechn']

In [55]:
import pickle

pickle.dump(still_missing_words, open('missing_words_grammar.p', 'wb'))

In [56]:
still_missing_words

['kontaaktdat',
 'aaktivierungsschlussel',
 'gewerbe',
 'livia',
 'desaktoprechn',
 'flavia',
 'gerateidentifikation',
 'murt',
 'zeistnungseditor',
 'be-med',
 'schaufelberg',
 'modellehrgang',
 'maksuti',
 'android-gerat',
 'kundg',
 'textbaend',
 'kontaaktaufnahm',
 'ziimmermann',
 'unvollstandi',
 'runtergefahr',
 'fehlermeldung',
 'eleaktik-eleaktron',
 'trosch',
 'ruswil',
 'akbxujuf',
 'gedrucakt',
 'eingegebenebn',
 'iimm',
 '-son',
 'coudfunaktion',
 'e-',
 'pilotprojeakt',
 'neulich',
 'zh',
 'sensoren+aaktor',
 'spannungsabfall',
 'passier',
 'prufungsbuch',
 'funaktion',
 'testlizenzbuch',
 'stv',
 'aufschalten',
 'franzosist',
 'sps-praaktist',
 'losungen/wort',
 'nau',
 'bearbeiten',
 'gibgl',
 'aaktivier',
 'aufstart',
 'beschranakt',
 'far-los',
 'phzh-account',
 'funaktiontiert',
 'markierfunaktion',
 'ubeschritt',
 'belehrt',
 'reichmuth',
 'hensel',
 'bp',
 'zuschnall',
 'aufricht',
 'ersatzgerat',
 'logisterweis',
 'rehweg',
 'rauslosch',
 'produakt',
 'korrigieren'