In [1]:
import nltk
import string
import pickle
import numpy as np

In [2]:
import zipfile
content = {}
with zipfile.ZipFile("keyword.zip") as zfile:
    for f in zfile.namelist():
        if f != "keyword/":
            content[f] = zfile.read(f).decode("utf8")
content.keys()     



dict_keys(['keyword/automobil_50k.txt', 'keyword/news_text100k.txt', 'keyword/sport_50k.txt', 'keyword/wirtschaft_50k.txt'])

In [3]:
def clean(text):
    tokenized_sents=[]
    text = text.lower()
    text = nltk.sent_tokenize(text)
    for sent in text:
        sent = nltk.word_tokenize(sent)
        sent = [x for x in sent if x not in string.punctuation]
        sent = [x for x in sent if x not in ["``", "''", "€", "$"]]
        sent = [x for x in sent if x.isalpha()]
        if len(sent) > 1:
            tokenized_sents.append(sent)
        
    
    return tokenized_sents

In [4]:


for key in content:
    content[key] = clean(content[key])

In [5]:
def create_trigrams(dic_corpora):
    ngram_dict = {}
    stopwords = nltk.corpus.stopwords.words("german")
    stopwords+=["findbecci","--","..", "§", '”', "rebecca", "freeflorian", "\|lbr\|", "|lbr|"]
   
    for index, key in enumerate(dic_corpora):
        print(key)
        ngram_dict[key] =[]
  
        for sents in dic_corpora[key]:

            ngram_dict[key] += [gram for gram in list(nltk.ngrams(sents,3)) if len(set(stopwords).intersection(set(gram)))== 0 and (len(gram[0])>1) and (len(gram[1])>1)]
    
    return ngram_dict

In [6]:
trigrams = create_trigrams(content)

keyword/automobil_50k.txt
keyword/news_text100k.txt
keyword/sport_50k.txt
keyword/wirtschaft_50k.txt


In [7]:

def load_obj(name ):
    with open('obj/' + name + '.pkl', 'rb') as f:
        return pickle.load(f)

In [8]:
hatespeech = load_obj("ngrams_hatespeech_without_stopwords")

In [9]:
trigrams["keywords/hatespeech"] = hatespeech["3-grams"]

In [10]:
trigrams["keywords/hatespeech"][:100]

[('menschenrechte', 'pressefreiheit', 'islamisierung'),
 ('pressefreiheit', 'islamisierung', 'wieso'),
 ('islamisierung', 'wieso', 'bekommen'),
 ('wieso', 'bekommen', 'rapefugees'),
 ('bekommen', 'rapefugees', 'mehr'),
 ('überall', 'schwangere', 'muslimische'),
 ('schwangere', 'muslimische', 'frauen'),
 ('kindern', 'islamisierung', 'asylanteninvasion'),
 ('verantwortlichen', 'hierfür', 'sitzen'),
 ('millionen', 'menschen', 'leben'),
 ('millionen', 'flüchtlinge', 'bereiten'),
 ('refugees', 'refugeesnotwelcome', 'refugeesgohome'),
 ('refugeesnotwelcome', 'refugeesgohome', 'abmerkeln'),
 ('grund', 'frauen', 'seien'),
 ('frauen', 'seien', 'anzeigefreudiger'),
 ('rapefugees', 'offenes', 'freies'),
 ('offenes', 'freies', 'wlan'),
 ('unterdenlinden', 'petry', 'fordert'),
 ('petry', 'fordert', 'bessere'),
 ('fordert', 'bessere', 'regelung'),
 ('bessere', 'regelung', 'gesetze'),
 ('hungerstreik', 'rapefugees', 'blutrache'),
 ('rapefugees', 'blutrache', 'zwangsbekehrung'),
 ('blutrache', 'zwangs

In [11]:
def transform_ngrams(dic):
    trigrams={}
    for keys in dic:
        tuples = []
        for doc in dic[keys]:
            tuples.append("_".join(doc))
        trigrams[keys] = tuples
    return trigrams

In [12]:
trigram = transform_ngrams(trigrams)

In [13]:
trigram

{'keyword/automobil_50k.txt': ['ford_ordentlich_einheizen',
  'monatlichen_kosten_dämpfend',
  'paar_kleinigkeiten_vergessen',
  'umgelegten_sitzlehnen_bilden',
  'sitzlehnen_bilden_leider',
  'komplett_ebenen_ladeboden',
  'statt_schriller_farben',
  'schriller_farben_verrückter',
  'farben_verrückter_formen',
  'paar_frischer_funktionen',
  'frischer_funktionen_gibt',
  'früher_kaum_vorstellbar',
  'bundeskanzlerin_angela_merkel',
  'angela_merkel_cdu',
  'fc_bayern_spielt',
  'fc_aberdeen_remis',
  'aston_martin_zeigt',
  'concept_car_heißt',
  'ähnelt_darüber_hinaus',
  'euro_aufpreis_gibt',
  'maximal_nm_entwickelt',
  'fünf_meter_lange',
  'tonnen_schwere_limousine',
  'coupé_kostet_franken',
  'farbige_applikationen_zeichnen',
  'streife_ließ_kräftig',
  'ließ_kräftig_dampf',
  'kräftig_dampf_ab',
  'messe_auto_china',
  'befragt_wurden_männer',
  'frauen_ab_jahren',
  'alten_kombi_liegt',
  'deutschen_autokäufer_vorerst',
  'fürs_fahrvergnügen_gibts',
  'millimeter_geringerer_b

In [14]:
vocab = nltk.FreqDist(sum(trigram.values(),[]))

In [15]:
vocab = sorted(list(vocab.items()),key= lambda x: x[1], reverse=True) 

In [16]:
vocab = [x[0] for x in vocab]

In [17]:
vocab[:100]

['unten_stehenden_link',
 'stehenden_link_verwenden',
 'fc_bayern_münchen',
 'bundeskanzlerin_angela_merkel',
 'rund_millionen_euro',
 'rund_milliarden_euro',
 'tour_de_france',
 'gramm_pro_kilometer',
 'bundestrainer_joachim_löw',
 'hypo_real_estate',
 'angela_merkel_cdu',
 'general_motors_gm',
 'beim_fc_bayern',
 'louis_van_gaal',
 'wall_street_journal',
 'schon_seit_jahren',
 'financial_times_deutschland',
 'new_york_times',
 'preisen_ab_euro',
 'euro_pro_jahr',
 'zwei_milliarden_euro',
 'hertha_bsc_berlin',
 'beim_großen_preis',
 'fünf_milliarden_euro',
 'europäische_zentralbank_ezb',
 'bank_of_america',
 'auto_club_europa',
 'seit_vielen_jahren',
 'carl_zeiss_jena',
 'ums_leben_gekommen',
 'kanzlerin_angela_merkel',
 'höchsten_stand_seit',
 'new_york_dpa',
 'bundesfinanzminister_peer_steinbrück',
 'peer_steinbrück_spd',
 'zehn_millionen_euro',
 'ersten_neun_monaten',
 'sv_wehen_wiesbaden',
 'internationalen_automobilausstellung_iaa',
 'ersten_mal_seit',
 'trainer_louis_van',
 'clu

In [18]:
term_freq = {genre: nltk.FreqDist(text) for genre, text in trigram.items()}

In [19]:
term_freq

{'keyword/automobil_50k.txt': FreqDist({'gramm_pro_kilometer': 76, 'preisen_ab_euro': 47, 'auto_club_europa': 33, 'internationalen_automobilausstellung_iaa': 26, 'club_europa_ace': 24, 'gramm_je_kilometer': 21, 'tom_grünweg_fotostrecke': 19, 'grünweg_fotostrecke_bilder': 19, 'liter_je_kilometer': 17, 'mindestens_euro_kosten': 17, ...}),
 'keyword/news_text100k.txt': FreqDist({'bundeskanzlerin_angela_merkel': 32, 'rund_millionen_euro': 23, 'ums_leben_gekommen': 22, 'fc_bayern_münchen': 20, 'new_york_times': 19, 'bundesgesundheitsminister_jens_spahn': 14, 'ministerpräsident_markus_söder': 14, 'angela_merkel_cdu': 13, 'bundeskanzler_sebastian_kurz': 12, 'seit_vielen_jahren': 12, ...}),
 'keyword/sport_50k.txt': FreqDist({'unten_stehenden_link': 340, 'stehenden_link_verwenden': 340, 'fc_bayern_münchen': 107, 'tour_de_france': 75, 'bundestrainer_joachim_löw': 71, 'louis_van_gaal': 60, 'beim_fc_bayern': 52, 'hertha_bsc_berlin': 42, 'beim_großen_preis': 36, 'trainer_louis_van': 26, ...}),
 'k

In [20]:
def create_dtm(dictionary,vocab):
    matrix=[]

    for value in dictionary.values():
        array=[]
        for word in vocab: 
            array.append(value.get(word, 0))
        matrix.append(array)    
    return np.array(matrix)      
           

In [21]:

def tfidf(matrix, terms, voc,n):
    
    
    y=matrix.sum(axis=1)
    
    
    y=y[:,np.newaxis]
    tm= (np.divide(matrix,y)) * np.log(matrix.shape[0]/((matrix>0).sum(0)))
   
    idf_list=[]
   
    for i in range(tm.shape[0]):
        
        idf_list.append(tm[i].argsort()[::-1])
        
    docs={}
    doc_list=[]
    
 
    for index, key in enumerate(terms.keys()):
        for i in range(n):
            doc_list.append(voc[idf_list[index][i]])
        
        docs[key]= doc_list
        doc_list=[]
    return docs

In [22]:
dtm=create_dtm(term_freq,vocab)

In [23]:

results = tfidf(dtm, term_freq, vocab,1000)


In [24]:
result_list= results["keywords/hatespeech"]



In [25]:
for index, value in enumerate(result_list):
    result_list[index]= " ".join(value.split("_"))

In [26]:
result_list

['bla bla bla',
 'spd schmarotzer pädophile',
 'marine le pen',
 'frau le pen',
 'herr sigmar gabriel',
 'sigmar gabriel bitte',
 'beim herumsurfen gesehen',
 'scheinheilgste partei deutschlands',
 'danke frau merkel',
 'nötigern erpressern gewalttätern',
 'fettigen haaren wdr',
 'beide völker regiert',
 'schwager schwagerwars gebtdenschwagerfrei',
 'erfolg löschung od',
 'hoch kriminellen brandstiftern',
 'stasifrau kahane funktioniert',
 'wikimedia cc by-sa',
 'jaxxon sundance justnobody',
 'ne neue seite',
 'rot grün versiffte',
 'ursula haverbeck –',
 'werdet einfach aktiv',
 'la la la',
 'ep europawahl meuthen',
 'ibizagate oesterreich neuwahlen',
 'etwa mitgeführten beförderungsmittel',
 'sozial gleichgestellte akzeptieren',
 'dreck verrecken lassen',
 'lieber hundert stimmen',
 'aktuelle politik anzugehen',
 'kommunalpolitiker werdet einfach',
 'junge kräftige männer',
 'bitten endlich aufzustehen',
 'wurde heute aufgenommen',
 'video wurde heute',
 "gibt 's ja",
 'millionen men

In [27]:
np.savetxt("triigram_keywords_tf_idf_with_news_without_stopwords.csv", result_list, delimiter =",",fmt ='% s')