In [1]:
import nltk
import string
import pickle
import numpy as np
from collections import Counter

In [2]:
import zipfile
content = {}
with zipfile.ZipFile("keyword.zip") as zfile:
    for f in zfile.namelist():
        if f != "keyword/":
            content[f] = zfile.read(f).decode("utf8")
content.keys()     



dict_keys(['keyword/automobil_50k.txt', 'keyword/news_text100k.txt', 'keyword/sport_50k.txt', 'keyword/wirtschaft_50k.txt'])

In [3]:
def clean(text):
    tokenized_sents=[]
    text = text.lower()
    text = nltk.sent_tokenize(text)
    for sent in text:
        sent = nltk.word_tokenize(sent)
        sent = [x for x in sent if x not in string.punctuation]
        sent = [x for x in sent if x not in ["``", "''", "€", "$"]]
        sent = [x for x in sent if x.isalpha()]
        if len(sent) > 1:
            tokenized_sents.append(sent)
        
    
    return tokenized_sents

In [4]:


for key in content:
    content[key] = clean(content[key])

In [5]:
def create_bigrams(dic_corpora):
    ngram_dict = {}
   
    stopwords = nltk.corpus.stopwords.words("german")
    stopwords +=["findbecci","--","..", "§", '”', "rebecca", "freeflorian", "\|lbr\|", "|lbr|"]
   
    for index, key in enumerate(dic_corpora):
        print(key)
        ngram_dict[key] =[]
  
        for sents in dic_corpora[key]:

            ngram_dict[key] += [gram for gram in list(nltk.ngrams(sents,2)) if len(set(stopwords).intersection(set(gram)))== 0]
    
    return ngram_dict

In [6]:
bigrams = create_bigrams(content)

keyword/automobil_50k.txt
keyword/news_text100k.txt
keyword/sport_50k.txt
keyword/wirtschaft_50k.txt


In [7]:

def load_obj(name ):
    with open('obj/' + name + '.pkl', 'rb') as f:
        return pickle.load(f)

In [8]:
hatespeech = load_obj("ngrams_hatespeech_without_stopwords")

In [9]:
bigrams["keywords/hatespeech"] = hatespeech["2-grams"]

In [10]:
bigrams["keywords/hatespeech"][:100]

[('schwimmbad', 'gehen'),
 ('menschenrechte', 'pressefreiheit'),
 ('pressefreiheit', 'islamisierung'),
 ('islamisierung', 'wieso'),
 ('wieso', 'bekommen'),
 ('bekommen', 'rapefugees'),
 ('rapefugees', 'mehr'),
 ('hartz', 'enpfänger'),
 ('verfluchten', 'rapefugees'),
 ('krieg', 'erklären'),
 ('ruhrpott', 'unterwegs'),
 ('überall', 'schwangere'),
 ('schwangere', 'muslimische'),
 ('muslimische', 'frauen'),
 ('kindern', 'islamisierung'),
 ('islamisierung', 'asylanteninvasion'),
 ('gewaltausbrüchen', 'kommt'),
 ('verantwortlichen', 'hierfür'),
 ('hierfür', 'sitzen'),
 ('regierung', 'merkel'),
 ('millionen', 'menschen'),
 ('menschen', 'leben'),
 ('millionen', 'flüchtlinge'),
 ('flüchtlinge', 'bereiten'),
 ('rassisten', 'sprechen'),
 ('flüchtlinge', 'verpassen'),
 ('refugees', 'refugeesnotwelcome'),
 ('refugeesnotwelcome', 'refugeesgohome'),
 ('refugeesgohome', 'abmerkeln'),
 ('kölner', 'polizei'),
 ('gestiegene', 'anzeigen'),
 ('grund', 'frauen'),
 ('frauen', 'seien'),
 ('seien', 'anzeigefre

In [11]:
def transform_ngrams(dic):
    bigrams={}
    for keys in dic:
        tuples = []
        for doc in dic[keys]:
            tuples.append("_".join(doc))
        bigrams[keys] = tuples
    return bigrams

In [12]:
bigram = transform_ngrams(bigrams)

In [13]:
bigram

{'keyword/automobil_50k.txt': ['ford_ordentlich',
  'ordentlich_einheizen',
  'bidirektionalen_schlüssel',
  'monatlich_günstiger',
  'niedrigeren_anschaffungspreise',
  'kastenwagen_wirken',
  'monatlichen_kosten',
  'kosten_dämpfend',
  'entwickler_dennoch',
  'paar_kleinigkeiten',
  'kleinigkeiten_vergessen',
  'umgelegten_sitzlehnen',
  'sitzlehnen_bilden',
  'bilden_leider',
  'komplett_ebenen',
  'ebenen_ladeboden',
  'statt_schriller',
  'schriller_farben',
  'farben_verrückter',
  'verrückter_formen',
  'paar_frischer',
  'frischer_funktionen',
  'funktionen_gibt',
  'billiges_plastik',
  'früher_kaum',
  'kaum_vorstellbar',
  'unterstützung_bekommen',
  'bundeskanzlerin_angela',
  'angela_merkel',
  'merkel_cdu',
  'fc_bayern',
  'bayern_spielt',
  'fc_aberdeen',
  'aberdeen_remis',
  'hsv_gewinnt',
  'aston_martin',
  'martin_zeigt',
  'leider_fahren',
  'eigentlich_läge',
  'beruf_macht',
  'dadurch_verringern',
  'spontaner_reagieren',
  'concept_car',
  'car_heißt',
  'ähn

In [14]:
vocab = nltk.FreqDist(sum(bigram.values(),[]))

In [15]:
vocab = sorted(list(vocab.items()),key= lambda x: x[1], reverse=True) 

In [16]:
vocab = [x[0] for x in vocab]

In [17]:
vocab[:100]

['millionen_euro',
 'milliarden_euro',
 'verlinken_möchten',
 'unten_stehenden',
 'stehenden_link',
 'link_verwenden',
 'vergangenen_jahr',
 'seit_jahren',
 'milliarden_dollar',
 'spiegel_online',
 'fc_bayern',
 'immer_mehr',
 'new_york',
 'bayern_münchen',
 'rund_euro',
 'champions_league',
 'general_motors',
 'zwei_jahren',
 'jahre_alte',
 'darüber_hinaus',
 'ab_euro',
 'rund_prozent',
 'rund_millionen',
 'welt_online',
 'millionen_dollar',
 'zehn_prozent',
 'schon_seit',
 'angela_merkel',
 'pro_jahr',
 'drei_jahren',
 'prozent_mehr',
 'beim_fc',
 'jahre_alt',
 'ersten_mal',
 'zwei_wochen',
 'vergangenen_jahren',
 'zwei_jahre',
 'schon_mal',
 'zehn_jahren',
 'kommenden_jahr',
 'werder_bremen',
 'euro_pro',
 'deutsche_bank',
 'pro_kilometer',
 'berlin_dpa',
 'ab_uhr',
 'vfb_stuttgart',
 'eigenen_angaben',
 'ersten_quartal',
 'schon_lange',
 'wall_street',
 'vier_jahren',
 'ab_sofort',
 'los_angeles',
 'hamburger_sv',
 'rund_milliarden',
 'hertha_bsc',
 'fünf_prozent',
 'fünf_jahren',


In [18]:
term_freq = {genre: nltk.FreqDist(text) for genre, text in bigram.items()}

In [19]:
term_freq

{'keyword/automobil_50k.txt': FreqDist({'spiegel_online': 224, 'ab_euro': 212, 'rund_euro': 183, 'pro_kilometer': 149, 'ps_starken': 115, 'general_motors': 113, 'litern_hubraum': 104, 'seit_jahren': 95, 'vw_golf': 92, 'millionen_euro': 92, ...}),
 'keyword/news_text100k.txt': FreqDist({'millionen_euro': 185, 'milliarden_euro': 110, 'darüber_hinaus': 109, 'seit_jahren': 78, 'immer_mehr': 77, 'donald_trump': 76, 'jahre_alt': 67, 'new_york': 63, 'ab_uhr': 55, 'fc_bayern': 55, ...}),
 'keyword/sport_50k.txt': FreqDist({'verlinken_möchten': 340, 'unten_stehenden': 340, 'stehenden_link': 340, 'link_verwenden': 340, 'fc_bayern': 312, 'bayern_münchen': 258, 'champions_league': 233, 'millionen_euro': 227, 'jahre_alte': 158, 'beim_fc': 157, ...}),
 'keyword/wirtschaft_50k.txt': FreqDist({'milliarden_euro': 831, 'millionen_euro': 654, 'milliarden_dollar': 339, 'verlinken_möchten': 270, 'unten_stehenden': 270, 'stehenden_link': 270, 'link_verwenden': 270, 'vergangenen_jahr': 224, 'new_york': 155, 

In [20]:
def create_dtm(dictionary,vocab):
    matrix=[]

    for value in dictionary.values():
        array=[]
        for word in vocab: 
            array.append(value.get(word, 0))
        matrix.append(array)    
    return np.array(matrix)      
           

In [21]:

def tfidf(matrix, terms, voc,n):
    
    
    y=matrix.sum(axis=1)
    
    
    y=y[:,np.newaxis]
    tm= (np.divide(matrix,y)) * np.log(matrix.shape[0]/((matrix>0).sum(0)))
   
    idf_list=[]
   
    for i in range(tm.shape[0]):
        
        idf_list.append(tm[i].argsort()[::-1])
        
    docs={}
    doc_list=[]
    
 
    for index, key in enumerate(terms.keys()):
        for i in range(n):
            doc_list.append(voc[idf_list[index][i]])
        
        docs[key]= doc_list
        doc_list=[]
    return docs

In [22]:
dtm=create_dtm(term_freq,vocab)

In [23]:

results = tfidf(dtm, term_freq, vocab,1000)


In [24]:
result_list= results["keywords/hatespeech"]



In [25]:
for index, value in enumerate(result_list):
    result_list[index]= " ".join(value.split("_"))

In [26]:
result_list

['bla bla',
 'le pen',
 "geht 's",
 'afd wählen',
 'frau petry',
 'schmarotzer pädophile',
 "gibt 's",
 'partei deutschlands',
 'spd schmarotzer',
 'islam gehört',
 'armes deutschland',
 'eigene volk',
 'twitter teilen',
 'gabriel bitte',
 'sundance justnobody',
 'marine le',
 'frau le',
 'herr sigmar',
 'herumsurfen gesehen',
 'beim herumsurfen',
 'liebe freunde',
 'pfui teufel',
 'fettigen haaren',
 'eigene bevölkerung',
 'deutschen volkes',
 'danke frau',
 'teufel jagen',
 'sucht endlich',
 'scheinheilgste partei',
 'saudi arabien',
 'grenzen dicht',
 'o. wilke',
 'schwager schwagerwars',
 'völker regiert',
 'notre dame',
 'erpressern gewalttätern',
 ' geld  ein',
 'erfolg löschung',
 'selbe gilt',
 'vorsätzliche beihilfe',
 'nötigern erpressern',
 'bürgerkriegsflüchtlingen helfen',
 'deutsche bürger',
 'sofort raus',
 'eigenen volk',
 'haaren wdr',
 'volker beck',
 'vasallen merkels',
 'merkel vasallen',
 'besten blockieren',
 'rot grün',
 'a. merkel',
 'danke merkel',
 'arsch vorb

In [27]:
np.savetxt("bigram_keywords_tf_idf_with_news_without_stopwords.csv", result_list, delimiter =",",fmt ='% s')