In [1]:
import nltk
import string
import pickle
import numpy as np

In [2]:
import zipfile
content = {}
with zipfile.ZipFile("keyword.zip") as zfile:
    for f in zfile.namelist():
        if f != "keyword/":
            content[f] = zfile.read(f).decode("utf8")
content.keys()     



dict_keys(['keyword/automobil_50k.txt', 'keyword/news_text100k.txt', 'keyword/sport_50k.txt', 'keyword/wirtschaft_50k.txt'])

In [3]:
def clean(text):
    tokenized_sents=[]
    text = text.lower()
    text = nltk.sent_tokenize(text)
    for sent in text:
        sent = nltk.word_tokenize(sent)
        sent = [x for x in sent if x not in string.punctuation]
        sent = [x for x in sent if x not in ["``", "''", "€", "$"]]
        sent = [x for x in sent if x.isalpha()]
        if len(sent) > 1:
            tokenized_sents.append(sent)
        
    
    return tokenized_sents

In [4]:


for key in content:
    content[key] = clean(content[key])

In [5]:
def create_trigrams(dic_corpora):
    ngram_dict = {}
    #stopwords = nltk.corpus.stopwords.words("german")
    stopwords=["findbecci","--","..", "§", '”', "rebecca", "freeflorian", "\|lbr\|", "|lbr|"]
   
    for index, key in enumerate(dic_corpora):
        print(key)
        ngram_dict[key] =[]
  
        for sents in dic_corpora[key]:

            ngram_dict[key] += [gram for gram in list(nltk.ngrams(sents,3)) if len(set(stopwords).intersection(set(gram)))== 0 and (len(gram[0])>1) and (len(gram[1])>1)]
    
    return ngram_dict

In [6]:
trigrams = create_trigrams(content)

keyword/automobil_50k.txt
keyword/news_text100k.txt
keyword/sport_50k.txt
keyword/wirtschaft_50k.txt


In [7]:

def load_obj(name ):
    with open('obj/' + name + '.pkl', 'rb') as f:
        return pickle.load(f)

In [8]:
hatespeech = load_obj("ngrams_hatespeech_with_stopwords")

In [9]:
trigrams["keywords/hatespeech"] = hatespeech["3-grams"]

In [10]:
trigrams["keywords/hatespeech"][:100]

[('rosenmontag', 'ist', 'abgesagt'),
 ('rapefugees', 'also', 'wieder'),
 ('also', 'wieder', 'wie'),
 ('wieder', 'wie', 'gewohnt'),
 ('wie', 'gewohnt', 'ins'),
 ('gewohnt', 'ins', 'schwimmbad'),
 ('ins', 'schwimmbad', 'gehen'),
 ('bitte', 'nicht', 'die'),
 ('nicht', 'die', 'türkei'),
 ('die', 'türkei', 'zum'),
 ('türkei', 'zum', 'eu-mitglied'),
 ('zum', 'eu-mitglied', 'machen'),
 ('menschenrechte', 'pressefreiheit', 'islamisierung'),
 ('pressefreiheit', 'islamisierung', 'wieso'),
 ('islamisierung', 'wieso', 'bekommen'),
 ('wieso', 'bekommen', 'rapefugees'),
 ('bekommen', 'rapefugees', 'mehr'),
 ('rapefugees', 'mehr', 'als'),
 ('mehr', 'als', 'unsere'),
 ('als', 'unsere', 'hartz'),
 ('unsere', 'hartz', 'enpfänger'),
 ('esreicht', 'den', 'verfluchten'),
 ('den', 'verfluchten', 'rapefugees'),
 ('verfluchten', 'rapefugees', 'den'),
 ('rapefugees', 'den', 'krieg'),
 ('den', 'krieg', 'erklären'),
 ('wasfehlt', 'war', 'das'),
 ('war', 'das', 'wochenende'),
 ('das', 'wochenende', 'im'),
 ('woch

In [11]:
def transform_ngrams(dic):
    trigrams={}
    for keys in dic:
        tuples = []
        for doc in dic[keys]:
            tuples.append("_".join(doc))
        trigrams[keys] = tuples
    return trigrams

In [12]:
trigram = transform_ngrams(trigrams)

In [13]:
trigram

{'keyword/automobil_50k.txt': ['der_soll_der',
  'soll_der_konkurrenz',
  'der_konkurrenz_von',
  'konkurrenz_von_skoda',
  'von_skoda_und',
  'skoda_und_ford',
  'und_ford_ordentlich',
  'ford_ordentlich_einheizen',
  'mit_dem_bidirektionalen',
  'dem_bidirektionalen_schlüssel',
  'bidirektionalen_schlüssel_kann',
  'schlüssel_kann_je',
  'kann_je_nach',
  'je_nach_system',
  'nach_system_auch',
  'system_auch_geprüft',
  'auch_geprüft_werden',
  'geprüft_werden_ob',
  'werden_ob_das',
  'ob_das_licht',
  'das_licht_noch',
  'licht_noch_brennt',
  'noch_brennt_oder',
  'brennt_oder_das',
  'oder_das_radio',
  'das_radio_noch',
  'radio_noch_spielt',
  'auch_monatlich_günstiger',
  'monatlich_günstiger_die',
  'günstiger_die_niedrigeren',
  'die_niedrigeren_anschaffungspreise',
  'niedrigeren_anschaffungspreise_der',
  'anschaffungspreise_der_kastenwagen',
  'der_kastenwagen_wirken',
  'kastenwagen_wirken_sich',
  'wirken_sich_auf',
  'sich_auf_die',
  'auf_die_monatlichen',
  'die_mon

In [14]:
vocab = nltk.FreqDist(sum(trigram.values(),[]))

In [15]:
vocab = sorted(list(vocab.items()),key= lambda x: x[1], reverse=True) 

In [16]:
vocab = [x[0] for x in vocab]

In [17]:
vocab[:100]

['in_den_usa',
 'sie_auf_den',
 'wenn_sie_auf',
 'auf_den_artikel',
 'können_sie_einfach',
 'verlinken_möchten_können',
 'möchten_können_sie',
 'sie_einfach_und',
 'einfach_und_kostenfrei',
 'und_kostenfrei_den',
 'kostenfrei_den_unten',
 'den_unten_stehenden',
 'unten_stehenden_link',
 'stehenden_link_verwenden',
 'in_diesem_jahr',
 'in_den_vergangenen',
 'die_zahl_der',
 'um_prozent_auf',
 'im_vergangenen_jahr',
 'in_den_letzten',
 'nach_wie_vor',
 'auch_in_der',
 'auf_den_markt',
 'im_vergleich_zum',
 'in_der_ersten',
 'in_höhe_von',
 'in_der_minute',
 'in_den_kommenden',
 'es_in_der',
 'in_den_nächsten',
 'in_den_ersten',
 'in_der_schweiz',
 'vor_allem_die',
 'in_der_zweiten',
 'sich_in_der',
 'es_sich_um',
 'von_millionen_euro',
 'prozent_auf_euro',
 'die_in_der',
 'davon_aus_dass',
 'nicht_nur_die',
 'von_milliarden_euro',
 'auch_für_die',
 'nach_angaben_des',
 'den_vergangenen_jahren',
 'zum_ersten_mal',
 'dass_sich_die',
 'und_in_der',
 'auf_dem_weg',
 'in_dieser_saison',
 'das

In [18]:
term_freq = {genre: nltk.FreqDist(text) for genre, text in trigram.items()}

In [19]:
term_freq

{'keyword/automobil_50k.txt': FreqDist({'in_den_usa': 291, 'auf_den_markt': 233, 'in_diesem_jahr': 141, 'die_zahl_der': 112, 'auf_der_straße': 102, 'mit_ps_und': 101, 'in_den_vergangenen': 92, 'auf_der_autobahn': 89, 'unter_der_haube': 89, 'auf_dem_genfer': 86, ...}),
 'keyword/news_text100k.txt': FreqDist({'die_zahl_der': 211, 'in_den_vergangenen': 138, 'in_diesem_jahr': 138, 'es_sich_um': 103, 'in_den_usa': 85, 'mit_dem_coronavirus': 76, 'auch_in_der': 69, 'handelt_es_sich': 69, 'es_in_der': 67, 'in_den_letzten': 65, ...}),
 'keyword/sport_50k.txt': FreqDist({'sie_auf_den': 346, 'wenn_sie_auf': 343, 'auf_den_artikel': 343, 'verlinken_möchten_können': 340, 'möchten_können_sie': 340, 'können_sie_einfach': 340, 'sie_einfach_und': 340, 'einfach_und_kostenfrei': 340, 'und_kostenfrei_den': 340, 'kostenfrei_den_unten': 340, ...}),
 'keyword/wirtschaft_50k.txt': FreqDist({'um_prozent_auf': 399, 'in_den_usa': 348, 'sie_auf_den': 275, 'wenn_sie_auf': 271, 'auf_den_artikel': 270, 'verlinken_möc

In [20]:
def create_dtm(dictionary,vocab):
    matrix=[]

    for value in dictionary.values():
        array=[]
        for word in vocab: 
            array.append(value.get(word, 0))
        matrix.append(array)    
    return np.array(matrix)      
           

In [21]:

def tfidf(matrix, terms, voc,n):
    
    
    y=matrix.sum(axis=1)
    
    
    y=y[:,np.newaxis]
    tm= (np.divide(matrix,y)) * np.log(matrix.shape[0]/((matrix>0).sum(0)))
   
    idf_list=[]
   
    for i in range(tm.shape[0]):
        
        idf_list.append(tm[i].argsort()[::-1])
        
    docs={}
    doc_list=[]
    
 
    for index, key in enumerate(terms.keys()):
        for i in range(n):
            doc_list.append(voc[idf_list[index][i]])
        
        docs[key]= doc_list
        doc_list=[]
    return docs

In [22]:
dtm=create_dtm(term_freq,vocab)

In [23]:

results = tfidf(dtm, term_freq, vocab,1000)


In [24]:
result_list= results["keywords/hatespeech"]



In [25]:
for index, value in enumerate(result_list):
    result_list[index]= " ".join(value.split("_"))

In [26]:
result_list

['in den arsch',
 'wir schaffen das',
 'in unser land',
 'sind das volk',
 'schmarotzer pädophile und',
 'bla bla bla',
 'raus aus deutschland',
 'pädophile und denunzianten',
 'in den knast',
 'frauen und kinder',
 'der islam ist',
 'spd schmarotzer pädophile',
 'gefahr für deutschland',
 'raus mit dem',
 'wir fordern das',
 'marine le pen',
 'das misstrauensvotum gegen',
 'mit dem pack',
 'frau le pen',
 'misstrauensvotum gegen herr',
 'der islam gehört',
 'fordern das misstrauensvotum',
 'gegen herr sigmar',
 'wollte bescheid sagen',
 'bitte auf facebook',
 'gabriel bitte auf',
 'und twitter teilen',
 'herr sigmar gabriel',
 'sigmar gabriel bitte',
 'ach du scheisse',
 'beim herumsurfen gesehen',
 'sie wird nicht',
 'merkel und ihre',
 'merkel und co',
 'scheinheilgste partei deutschlands',
 'des deutschen volkes',
 'zum teufel jagen',
 'den knast mit',
 'frau merkel und',
 'wir sind das',
 'das eigene volk',
 'gegen die afd',
 'selbe gilt für',
 'der justiz oder',
 'justiz oder bei

In [27]:
np.savetxt("triigram_keywords_tf_idf_with_news_with_stopwords.csv", result_list, delimiter =",",fmt ='% s')