# Topic Selection and Postprocessing

For label annotation

In [1]:
%matplotlib inline
import pickle
from os import listdir, makedirs
from os.path import join, isfile, exists, dirname
import gc
import re
import math

import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import seaborn as sns
%pylab inline
import numpy as np
import pandas as pd
from gensim.corpora import Dictionary, MmCorpus
from gensim.models import TfidfModel, LdaModel
from gensim.models import Word2Vec, Doc2Vec, FastText
from gensim.corpora import Dictionary
from gensim.models import CoherenceModel
from tqdm._tqdm_notebook import tqdm_notebook

from constants import *
from utils import load, init_logging, tprint, TopicsLoader, Unlemmatizer
from topic_reranking import Reranker

tqdm_notebook.pandas()

Populating the interactive namespace from numpy and matplotlib


In [2]:
pd.options.display.max_columns = 80
pd.options.display.max_rows = 2000
pd.options.display.precision = 3

In [3]:
phra = load('phrases', 'lemmap')
wikt = load('wikt', 'lemmap')

Loading ../data/preprocessed/dewiki_phrases_lemmatization_map.pickle


-----

##### Joining Topics / Labels / Scores

In [4]:
#pfile_t = join(TPX_PATH, 'PoliticalSpeeches_topics_ep20.csv')
ofile_t = join(TPX_PATH, 'OnlineParticipation_topics_ep20.csv')
#ptopics = pd.read_csv(pfile_t, index_col=[0, 1, 2, 3, 4], header=0).reset_index('metric', drop=True)
otopics = pd.read_csv(ofile_t, index_col=[0, 1, 2, 3, 4], header=0).reset_index('metric', drop=True)
otopics

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
OnlineParticipation,e42,100,0,Bad_Godesberg,Lage,Hauptbahnhof,Stadt,Pflasterstein,Gag,Rathaus,Berlin,Innenstadt,City
OnlineParticipation,e42,100,1,Arbeit,Aufgabe,Toilette,Personal,Steuer,Kosten,Finanzierung,Gesellschaft,Allgemeinheit,Stadt
OnlineParticipation,e42,100,2,Vorschlag,Bürgerhaushalt,Redaktion,Bürger,Thema,Verwaltung,Bezirksvertretung,Grund,Stadt,Möglichkeit
OnlineParticipation,e42,100,3,Seite,Brücke,Kreisverkehr,Beuel,KM,Umweg,Fahrspur,Rodenkirche,Verkehrsteilnehmer,Bereich
OnlineParticipation,e42,100,4,Familie,Gruppe,Köln,Geld,Stadt_Köln,Mann,Einrichtung,Hilfe,Blücherpark,Lärmschutzwand
OnlineParticipation,e42,100,5,Fahrrad,Fahrradständer,Verwaltung,Bevölkerung,Rahmen,Jahr,Zuschuss,Bürgervorschlag,Mehrheit,Fahrradverkehr
OnlineParticipation,e42,100,6,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,NRW,Tourismus,Geld,Aktion
OnlineParticipation,e42,100,7,Nutzung,Grünfläche,Veranstaltung,Rheinaue,Stadt,LED,Bebauung,Veranstalter,Einfluss,Akademie
OnlineParticipation,e42,100,8,Viertel,Maßnahme,Freizeit,Neugestaltung,Ärgernis,Passant,Glas,Bordsteinabsenkung,Jahr,Einbahnstraßenregelung
OnlineParticipation,e42,100,9,Fahrradwrack,Zustimmung,Blumenberg,Radständer,Chorweiler,Verlängerung,Pfütze,Reif,Fahrradständer,BV


In [5]:
#pfile_l = join(TPX_PATH, 'PoliticalSpeeches_labels_ep20.csv')
ofile_l = join(TPX_PATH, 'OnlineParticipation_labels_ep20.csv')
#plabels = (
#    pd
#    .read_csv(pfile_l, index_col=[0, 1, 2, 3, 4], header=0)
#    .drop('label_method', axis=1)
#    .reset_index('metric', drop=True)
#    .applymap(lambda x: eval(x)[0])
#)
olabels = (
    pd
    .read_csv(ofile_l, index_col=[0, 1, 2, 3, 4], header=0)
    .drop('label_method', axis=1)
    .reset_index('metric', drop=True)
    .applymap(lambda x: eval(x)[0])
)
olabels

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
OnlineParticipation,e42,100,0,Altstadt,historisch_Altstadt,Stadtmitte,Innenstadt,historisch_Fünfeck,Kernstadt,Seevorstadt-Ost/Große_Garten,Alt-Godesberg,Vorstadt,Altstadt_II,alt_Rathaus,Weststadt,Bahnhofsvorplatz,Marktplatz,statistisch_Stadtteil,Südstadt,Rathausviertel,neu_Rathaus,S-Bahnhof,Bismarckstraße
OnlineParticipation,e42,100,1,öffentlich_Hand,Aufwendung,Mitgliedsbeitrag,Wohnungswesen,Unterhaltung,Bahnversicherungsanstalt,Dienstleister,Verwaltung,kalkulatorisch_Abschreibung,Infrastruktur,Zuschuss,Raumkosten,mittelbar_Staatsverwaltung,öffentlich_Haushalt,Kommunalabgabe,Landeswohlfahrtsverband,Generaldirektion,Anschaffung,übertragen_Wirkungskreis,Verpflegung
OnlineParticipation,e42,100,2,Kommunalpolitik,Bürgerschaft,Stadtrat,Mandatsträger,Vertretungskörperschaft,Stadtteilbüro,düsseldorfer_Stadtrat,sozialdemokratisch_Gemeinschaft_für_Kommunalpo...,Bürgerwerkstatt,Rat_der_Stadt,Amtsleiter,Ausschuss,Bürgerbeteiligung,Bezirksausschuss,Bürgerausschuss,Gremium,Landes-_und_Kommunalverwaltung,Mitentscheidung,Verbandsgemeinderat,Gemeinderat
OnlineParticipation,e42,100,3,Straßenbrücke,Fußgängerbrücke,Überwerfungsbauwerk,Bundesstraße_277,Bundesstraße_53,zweispurig,Bundesstraße_484,bremer_Kreuz,Unterquerung,Bundesstraße_482,Bundesstraße_426,Anschlussstelle,Unterführung,Zubringerstraße,Bahnkörper,Bundesstraße_221,Staatsstraße_2308,Autobahngabelung,Gegenverkehr,Oude_Maa
OnlineParticipation,e42,100,4,Köln-Lindenthal,Theodor_Kremer,Lechenich,Bilderstöckchen,Steingeshof,Wischlinge,Jungmannshof,Gymnich,Humboldt/Gremberg,Franziska_Speyer,sozial_Einrichtung,evangelisch_Gemeindehaus,Liblar,Eschenkamp,Mülheim,Judenbüchel,Diakonie_Michaelshoven,Krefeld,kölner_Stiftsfehde,Johann_Bere
OnlineParticipation,e42,100,5,Verkehrsverbund_Pforzheim-Enzkreis,Busbetrieb_Olten_Gösgen_Gäu,Verkehrsverbund_Schwarzwald-Baar,Radverkehr,öffentlich_Hand,Regio_Verkehrsverbund_Lörrach,Kornelimünster/Walheim,Umweltverbund,öffentlich_Personennahverkehr,Nahverkehr,Verkehrsberuhigung,Verkehrsmittel,Kohäsionsfond,Rottmoos,Gelegenheitsverkehr,Verkehrsgemeinschaft_Niederrhein,öffentlich_Einrichtung,Verkehrsunternehmen,Verbundtarif_Region_Braunschweig,öffentlich_Verkehr
OnlineParticipation,e42,100,6,Städte-_und_Gemeindebund_Nordrhein-Westfale,öffentlich_Einrichtung,sozial_Einrichtung,Landeswohlfahrtsverband,westfälisch_Literaturbüro,Bünde-Mitte,frei_Träger,Sparkassenverband_Westfalen-Lippe,sozialdemokratisch_Gemeinschaft_für_Kommunalpo...,Kulturzentrum,Mitgliedsbeitrag,Lippinghausen,öffentlich_Hand,Region_Leinebergland,Schulentwicklungsplanung,Landes-_und_Kommunalverwaltung,Förderverein,laut_gegen_Nazi,Zweckverband,Wirtschaftsförderung
OnlineParticipation,e42,100,7,Freifläche,Naherholungsgebiet,Hardtberghalle,Grünfläche,Kulturzentrum,Altstadt,Revierpark,Kornelimünster/Walheim,Kongresszentrum,Sportstätte,Sichtachse,Kernstadt,Grünzug,Herrenteich,Innenstadt,Dellviertel,Mehrzweckhalle,Goldsteinpark,historisch_Altstadt,Gebäudekomplex
OnlineParticipation,e42,100,8,Freifläche,Platzgestaltung,Nachtleben,Verkehrsberuhigung,Innenstadt,Fußgängerzone,Altstadt,Einkaufsstraße,Grünfläche,historisch_Fünfeck,Stadtteilbüro,Rathausviertel,Stadtbild,Bechermacherstraße,Verkehrsvermeidung,Wohnstraße,evangelisch_Gemeindehaus,Gestaltung,Renovierung,Verkehrsführung
OnlineParticipation,e42,100,9,Haltestellenkap,Abzweigstelle,Stadtbahn_Köln,SV_Adler_Osterfeld,mäßig_Geschwindigkeit,Valencienner_Straße,Ummer,Kombibahnsteig,Rheinuferbahn,Innenstadttunnel,Bundesstraße_59,Ellhausen,Vnk-Strecke,Weilerhohn,Feldkassel,Gremberghoven,Ringbahn,Bundesautobahn_565,Innsbrucker_Ring,S-Bahnhof


In [6]:
#pfile_s = join(TPX_PATH, 'PoliticalSpeeches_scores_ep20_X.csv')
ofile_s = join(TPX_PATH, 'OnlineParticipation_scores_ep20_X.csv')
#pscores = pd.read_csv(pfile_s, index_col=[0, 1, 2, 3, 4], header=0).reset_index('metric', drop=True)
oscores = pd.read_csv(ofile_s, index_col=[0, 1, 2, 3, 4], header=0).reset_index('metric', drop=True)
oscores

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,c_npmi_wikt,pairwise_similarity_ftx
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1
OnlineParticipation,e42,100,0,-0.02266,0.342
OnlineParticipation,e42,100,1,0.02746,0.378
OnlineParticipation,e42,100,2,0.02396,0.375
OnlineParticipation,e42,100,3,0.0003981,0.328
OnlineParticipation,e42,100,4,-0.06237,0.275
OnlineParticipation,e42,100,5,-0.02908,0.323
OnlineParticipation,e42,100,6,0.03274,0.339
OnlineParticipation,e42,100,7,-0.0189,0.316
OnlineParticipation,e42,100,8,-0.04189,0.3
OnlineParticipation,e42,100,9,-0.08703,0.252


In [8]:
metrics = ['c_npmi_wikt', 'pairwise_similarity_ftx']

def combine_simple(topics, labels, scores, min_regular_terms=6, min_cnpmi=0, min_pairsim=0.3):
    scores['rank_cnpmi'] = scores.c_npmi_wikt.rank()
    scores['rank_pairsim'] = scores.pairwise_similarity_ftx.rank()
    scores['rank_mean'] = (scores.rank_cnpmi + scores.rank_pairsim) / 2
    col_mean = scores[metrics].mean()
    col_stdv = scores[metrics].std()
    print(col_mean)
    scores_norm = (scores[metrics] - col_mean) / col_stdv
    scores_norm = scores_norm.rename(columns=lambda x: x + '_norm')
    scores_norm['avg'] = scores_norm.mean(axis=1)
    scores = scores.join(scores_norm)
    scores['avg_rank'] = scores.avg.rank()
    print('average difference per topic between the mean of the individual ranks and the rank of the normalized mean:', (scores.rank_mean - scores.avg_rank).abs().sum() / len(scores))
    # an advantage of ranking by taking the normalized mean: minimal chance of equal ranks -> disadvantage: metric is not comparable to other datasets anymore -> use metrics as a filter

    df = pd.concat([topics, labels, scores], axis=1)
    df['count_regular_terms'] = df.loc[:, 'term0':'term9'].applymap(lambda x: x in wikt.index).sum(axis=1)
    df = df.query('count_regular_terms >= @min_regular_terms and c_npmi_wikt >= @min_cnpmi and pairwise_similarity_ftx >= @min_pairsim')
    print(len(df))
    df = df.sort_values('avg_rank', ascending=False).loc[:, 'term0':'label19']
    return df

#dfp = combine_simple(ptopics, plabels, pscores, min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfo = combine_simple(otopics, olabels, oscores, min_regular_terms=7, min_cnpmi=-0.05, min_pairsim=0.3)
dfo

c_npmi_wikt               -0.021
pairwise_similarity_ftx    0.319
dtype: float64
average difference per topic between the mean of the individual ranks and the rank of the normalized mean: 2.03
81


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1
OnlineParticipation,e42,100,94,Radfahrer,Straße,Autofahrer,Fahrradstraße,Richtung,Fahrradfahrer,Fahrradweg,Auto,Fußgänger,Radweg,Radverkehr,Fahrradstraße,zweispurig,Verkehrsteilnehmer,Veloroute,Kraftfahrstraße,Radfahrer,Einbahnstraße,Straßenverkehr,Unterführung,Parkstand,Ravel-Netz,Beschleunigungsstreife,Kreisverkehr,Fußgängerbrücke,Gehweg,Bahnkörper,Gegenverkehr,Wohnstraße,Milseburgradweg
OnlineParticipation,e42,100,37,Bus,Bahn,Linie,ÖPNV,Strecke,Verbindung,Haltestelle,Stau,Buslinie,Busbahnhof,Stadtbus,Busbahnhof,Durchmesserlinie,öffentlich_Personennahverkehr,Nahverkehrszug,Nahverkehr,Schnellbus,Schienenersatzverkehr,Umsteig,Endbahnhof,Verknüpfungspunkt,Haltestelle,Straßenbahn,Wendeschleife,Nachtverkehr,Regiobus_Hannover,Stichstrecke,S-Bahn,Regionalzug,Stadtbahn
OnlineParticipation,e42,100,42,Kind,Schule,Jugendliche,Schüler,Elter,Kita,Kindergarten,Grundschule,Familie,Angebot,Schulklasse,Vorschule,Schule,Sekundarstufe_I,Grundschule,Förderschule,Regelschule,Ganztagsschule,Hauptschule,Kindertagesstätte,Kindergarten,Privatschule,Grundschulförderklasse,offen_Ganztagsschule,Sonderschule,Oberschule,Gesamtschule,Sekundarschule,Schuljahr,Realschule
OnlineParticipation,e42,100,96,Richtung,Radweg,Einmündung,Bürgersteig,Radfahrer,Einfahrt,Bordstein,Süden,Fahrtrichtung,Norden,Beschleunigungsstreife,Radfernweg_thüringer_Städtekette,Straßenkreuzung,U.S._Highway_150,Bahnkörper,Straßenbrücke,Fußgängerbrücke,Effnerstraße,Kreisverkehr,Bundesstraße_277,Staatsstraße_2308,zweispurig,Fahrweg,Route_31,Streckengleis,Anschlussstelle,Unterführung,Wendeschleife,State_Highway_29,Route_23
OnlineParticipation,e42,100,90,Radfahrer,Fußgänger,Ampel,Autofahrer,Ampelschaltung,Richtung,Grün,Fußgängerampel,Radler,Spur,Radverkehr,Verkehrsteilnehmer,Gegenverkehr,Ampel,Busschleuse,Beschleunigungsstreife,Fußgängerfurt,Fahrradstraße,Kreisverkehr,Straßenverkehr,Bahnübergang,Abbiegen,Fußgängerüberweg,Straßenkreuzung,Grünpfeil,zweispurig,Einbahnstraße,Unterführung,Verkehrsinsel,Nothaltebucht
OnlineParticipation,e42,100,19,Radweg,Radfahrer,Fahrbahn,Fußgänger,Weg,Straße,Stelle,Bushaltestelle,Zustand,Gefahr,Unterführung,Fußgängerbrücke,Straßenbrücke,Beschleunigungsstreife,Bahnkörper,Haltestellenkap,Gegenverkehr,Verkehrsinsel,Busschleuse,Staatsstraße_2308,Parkstand,zweispurig,Fahrweg,Gehweg,Verkehrsteilnehmer,Bahnübergang,Fußgängerfurt,Einbahnstraße,Wirtschaftsweg,Milseburgradweg
OnlineParticipation,e42,100,79,Auto,Fahrrad,Innenstadt,Radfahrer,Rad,Deutz,Straße,Stadt,Freigabe,Autoverkehr,zweispurig,Fußgängerbrücke,Stadtautobahn,Straßenverkehr,Straßenfahrzeug,Zweirad,Personenkraftwagen,Straßenbahn,Straßenbrücke,Individualverkehr,Fahrzeug,Radverkehr,Verkehrsmittel,Einbahnstraße,Fahrrad,magdeburger_Ring,Parkplatz,Unterführung,Blockumfahrung,Berufsverkehr
OnlineParticipation,e42,100,68,Einbahnstraße,Falschparker,Radstreife,Radfahrer,Gegenrichtung,Markierung,Straße,Sicht,Abschnitt,Situation,Beschleunigungsstreife,Fahrtrichtung,Gegenverkehr,Einbahnstraße,Verkehrsführung,zweispurig,Radfahrstreifen,Busschleuse,Parkstand,Abbiegen,Haltestellenkap,Freilandstraße,Verkehrsstrom,Bahnkörper,Straßenausstattung,Verkehrsteilnehmer,Straßenkreuzung,Blockumfahrung,Kraftfahrstraße,Ausweiche
OnlineParticipation,e42,100,15,Haushalt,Einkommen,Kosten,Bauvorhaben,Vorhaben,Belastung,Umgebung,Mehreinnahme,Jahr,Bürger,Aufwendung,Kommunalsteuer,Einkunft,Steueraufkommen,Staatseinnahme,Kapitalertrag,Baukosten,Kaufkraft,Erwerbseinkommen,Vermögenshaushalt,Bemessungsgrundlage,Bauprojekt,Investition,Bauvorhaben,Auszahlung,Staatsausgabe,öffentlich_Haushalt,Zuschuss,Extrahaushalt,Schulgeld
OnlineParticipation,e42,100,1,Arbeit,Aufgabe,Toilette,Personal,Steuer,Kosten,Finanzierung,Gesellschaft,Allgemeinheit,Stadt,öffentlich_Hand,Aufwendung,Mitgliedsbeitrag,Wohnungswesen,Unterhaltung,Bahnversicherungsanstalt,Dienstleister,Verwaltung,kalkulatorisch_Abschreibung,Infrastruktur,Zuschuss,Raumkosten,mittelbar_Staatsverwaltung,öffentlich_Haushalt,Kommunalabgabe,Landeswohlfahrtsverband,Generaldirektion,Anschaffung,übertragen_Wirkungskreis,Verpflegung


In [10]:
args = ['e42', 100]
metrics = ['c_npmi_wikt', 'pairwise_similarity_ftx']

def combine(dataset, min_regular_terms=6, min_cnpmi=0, min_pairsim=0.3):
    topics = load(dataset, 'topics', *args)
    labels_w2v = load(dataset, 'labels', *args, 'w2v', 'minimal').rename(columns=lambda x: x + '_w2v').reset_index(level='label_method', drop=True)
    labels_ftx = load(dataset, 'labels', *args, 'ftx', 'minimal').rename(columns=lambda x: x + '_ftx').reset_index(level='label_method', drop=True)
    scores = load(dataset, 'scores', *args, 'ftx', 'minimal')[metrics]

    scores['rank_cnpmi'] = scores.c_npmi_wikt.rank()
    scores['rank_pairsim'] = scores.pairwise_similarity_ftx.rank()
    scores['rank_mean'] = (scores.rank_cnpmi + scores.rank_pairsim) / 2
    col_mean = scores[metrics].mean()
    col_stdv = scores[metrics].std()
    print(col_mean)
    scores_norm = (scores[metrics] - col_mean) / col_stdv
    scores_norm = scores_norm.rename(columns=lambda x: x + '_norm')
    scores_norm['avg'] = scores_norm.mean(axis=1)
    scores = scores.join(scores_norm)
    scores['avg_rank'] = scores.avg.rank()
    print('average difference per topic between the mean of the individual ranks and the rank of the normalized mean:', (scores.rank_mean - scores.avg_rank).abs().sum() / len(scores))
    # an advantage of ranking by taking the normalized mean: minimal chance of equal ranks -> disadvantage: metric is not comparable to other datasets anymore -> use metrics as a filter

    df = pd.concat([topics, labels_w2v, labels_ftx, scores], axis=1)
    df['count_regular_terms'] = df.loc[:, 'term0':'term9'].applymap(lambda x: x in wikt.index).sum(axis=1)
    df = df.query('count_regular_terms >= @min_regular_terms and c_npmi_wikt >= @min_cnpmi and pairwise_similarity_ftx >= @min_pairsim')
    print(len(df))
    df = df.sort_values('avg_rank', ascending=False).loc[:, 'term0':'label19_w2v'].rename(columns=lambda x: x.replace('_w2v', ''))
    return df

In [23]:
dfd = combine('dewac', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfn = combine('n', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
#dfs = combine('s', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
#dfo = combine('o', min_regular_terms=6, min_cnpmi=-0.1, min_pairsim=0.3)
dfp = combine('p', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)

Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/dewac_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/dewac_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates_ftx.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores_germanet.csv
c_npmi_wikt                0.123
pairwise_similarity_ftx    0.457
dtype: float64
average difference per topic between the mean of the individual ranks and the rank of the normalized mean: 2.12
72
Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/news_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/news_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/news_noun_bow_label-candidates.csv
Readin

In [24]:
df = pd.concat([dfd, dfn, dfp, dfo]).reset_index(level=['param_id', 'nb_topics'], drop=True).sort_index()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
OnlineParticipation,0,Bad_Godesberg,Lage,Hauptbahnhof,Stadt,Pflasterstein,Gag,Rathaus,Berlin,Innenstadt,City,Altstadt,historisch_Altstadt,Stadtmitte,Innenstadt,historisch_Fünfeck,Kernstadt,Seevorstadt-Ost/Große_Garten,Alt-Godesberg,Vorstadt,Altstadt_II,alt_Rathaus,Weststadt,Bahnhofsvorplatz,Marktplatz,statistisch_Stadtteil,Südstadt,Rathausviertel,neu_Rathaus,S-Bahnhof,Bismarckstraße
OnlineParticipation,1,Arbeit,Aufgabe,Toilette,Personal,Steuer,Kosten,Finanzierung,Gesellschaft,Allgemeinheit,Stadt,öffentlich_Hand,Aufwendung,Mitgliedsbeitrag,Wohnungswesen,Unterhaltung,Bahnversicherungsanstalt,Dienstleister,Verwaltung,kalkulatorisch_Abschreibung,Infrastruktur,Zuschuss,Raumkosten,mittelbar_Staatsverwaltung,öffentlich_Haushalt,Kommunalabgabe,Landeswohlfahrtsverband,Generaldirektion,Anschaffung,übertragen_Wirkungskreis,Verpflegung
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Redaktion,Bürger,Thema,Verwaltung,Bezirksvertretung,Grund,Stadt,Möglichkeit,Kommunalpolitik,Bürgerschaft,Stadtrat,Mandatsträger,Vertretungskörperschaft,Stadtteilbüro,düsseldorfer_Stadtrat,sozialdemokratisch_Gemeinschaft_für_Kommunalpo...,Bürgerwerkstatt,Rat_der_Stadt,Amtsleiter,Ausschuss,Bürgerbeteiligung,Bezirksausschuss,Bürgerausschuss,Gremium,Landes-_und_Kommunalverwaltung,Mitentscheidung,Verbandsgemeinderat,Gemeinderat
OnlineParticipation,5,Fahrrad,Fahrradständer,Verwaltung,Bevölkerung,Rahmen,Jahr,Zuschuss,Bürgervorschlag,Mehrheit,Fahrradverkehr,Verkehrsverbund_Pforzheim-Enzkreis,Busbetrieb_Olten_Gösgen_Gäu,Verkehrsverbund_Schwarzwald-Baar,Radverkehr,öffentlich_Hand,Regio_Verkehrsverbund_Lörrach,Kornelimünster/Walheim,Umweltverbund,öffentlich_Personennahverkehr,Nahverkehr,Verkehrsberuhigung,Verkehrsmittel,Kohäsionsfond,Rottmoos,Gelegenheitsverkehr,Verkehrsgemeinschaft_Niederrhein,öffentlich_Einrichtung,Verkehrsunternehmen,Verbundtarif_Region_Braunschweig,öffentlich_Verkehr
OnlineParticipation,6,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,NRW,Tourismus,Geld,Aktion,Städte-_und_Gemeindebund_Nordrhein-Westfale,öffentlich_Einrichtung,sozial_Einrichtung,Landeswohlfahrtsverband,westfälisch_Literaturbüro,Bünde-Mitte,frei_Träger,Sparkassenverband_Westfalen-Lippe,sozialdemokratisch_Gemeinschaft_für_Kommunalpo...,Kulturzentrum,Mitgliedsbeitrag,Lippinghausen,öffentlich_Hand,Region_Leinebergland,Schulentwicklungsplanung,Landes-_und_Kommunalverwaltung,Förderverein,laut_gegen_Nazi,Zweckverband,Wirtschaftsförderung
OnlineParticipation,7,Nutzung,Grünfläche,Veranstaltung,Rheinaue,Stadt,LED,Bebauung,Veranstalter,Einfluss,Akademie,Freifläche,Naherholungsgebiet,Hardtberghalle,Grünfläche,Kulturzentrum,Altstadt,Revierpark,Kornelimünster/Walheim,Kongresszentrum,Sportstätte,Sichtachse,Kernstadt,Grünzug,Herrenteich,Innenstadt,Dellviertel,Mehrzweckhalle,Goldsteinpark,historisch_Altstadt,Gebäudekomplex
OnlineParticipation,10,Moderation,Gruß,Kommentar,Dank,Hallo,Hinweis,Dialog,Diskussion,Aussage,Teilnehmer,Bemerkung,Behauptung,Gespräch,Frage,Fernsehsendung,Show,Vortrag,Bericht,Schilderung,rhetorisch_Frage,Erörterung,offen_Brief,Debatte,Zitat,Äußerung,Podiumsdiskussion,Ratschlag,Sonntagabend,trocken_Humor,Trackback
OnlineParticipation,11,Miete,Luft,Bürger,Vermieter,Stadt,Bezirk,Mieter,Jahr,Köln,Objekt,Baugrundstück,Kaltmiete,Wohneigentum,Vergleichsmiete,Bewirtschaftungskosten,Wohnungsunternehmen,Kornelimünster/Walheim,Liegenschaftsamt,Notargebühr,Immobilie,Wohnungswesen,Untermieter,Mietvertrag,Wohnung,Mietausfall,Wohnraum,Altstadt,Mieterschutz,Kostenmiete,Stadtbezirk_Innenstadt-West
OnlineParticipation,14,Museum,Eindruck,Information,Gefühl,Gegenteil,Politik,Stadt,Regel,Jahr,Lösung,Offenheit,Überzeugung,Interesse,selbst,virtuell_Agent,Erleben,Frage,Vorstellung,dazu,sozial,Gedanke,Einsicht,Alltag,Schilderung,Ausdruck,Informationsbedarf,immer,Kontext,Strategie,Ansicht
OnlineParticipation,15,Haushalt,Einkommen,Kosten,Bauvorhaben,Vorhaben,Belastung,Umgebung,Mehreinnahme,Jahr,Bürger,Aufwendung,Kommunalsteuer,Einkunft,Steueraufkommen,Staatseinnahme,Kapitalertrag,Baukosten,Kaufkraft,Erwerbseinkommen,Vermögenshaushalt,Bemessungsgrundlage,Bauprojekt,Investition,Bauvorhaben,Auszahlung,Staatsausgabe,öffentlich_Haushalt,Zuschuss,Extrahaushalt,Schulgeld


In [25]:
file = join(DATA_BASE, 'topics_labels_X.csv')
df.to_csv(file)

In [26]:
ul = Unlemmatizer()

Loading ../data/preprocessed/dewiki_phrases_lemmatization_map.pickle


In [27]:
df.loc[:, 'term0':'term9']

Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
OnlineParticipation,0,Bad_Godesberg,Lage,Hauptbahnhof,Stadt,Pflasterstein,Gag,Rathaus,Berlin,Innenstadt,City
OnlineParticipation,1,Arbeit,Aufgabe,Toilette,Personal,Steuer,Kosten,Finanzierung,Gesellschaft,Allgemeinheit,Stadt
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Redaktion,Bürger,Thema,Verwaltung,Bezirksvertretung,Grund,Stadt,Möglichkeit
OnlineParticipation,5,Fahrrad,Fahrradständer,Verwaltung,Bevölkerung,Rahmen,Jahr,Zuschuss,Bürgervorschlag,Mehrheit,Fahrradverkehr
OnlineParticipation,6,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,NRW,Tourismus,Geld,Aktion
OnlineParticipation,7,Nutzung,Grünfläche,Veranstaltung,Rheinaue,Stadt,LED,Bebauung,Veranstalter,Einfluss,Akademie
OnlineParticipation,10,Moderation,Gruß,Kommentar,Dank,Hallo,Hinweis,Dialog,Diskussion,Aussage,Teilnehmer
OnlineParticipation,11,Miete,Luft,Bürger,Vermieter,Stadt,Bezirk,Mieter,Jahr,Köln,Objekt
OnlineParticipation,14,Museum,Eindruck,Information,Gefühl,Gegenteil,Politik,Stadt,Regel,Jahr,Lösung
OnlineParticipation,15,Haushalt,Einkommen,Kosten,Bauvorhaben,Vorhaben,Belastung,Umgebung,Mehreinnahme,Jahr,Bürger


In [28]:
file = join(DATA_BASE, 'topics_unlem_X.csv')
df_topics_unlem = ul.unlemmatize_topics(df.loc[:, 'term0':'term9'])
df_topics_unlem.to_csv(file)
df_topics_unlem

Loading ../data/preprocessed/OnlineParticipation_lemmatization_map.pickle
    Bad_Godesberg -> Bad Godesberg
    Parkplatz -> Parkplätze
    Hund -> Hunde
    Bus -> Busse
    Kind -> Kinder
    Auto -> Autos
    Fläche -> Flächen
    Baum -> Bäume
    Bad_Godesberg -> Bad Godesberg
    Parkplatz -> Parkplätze
    Hund -> Hunde
    Bus -> Busse
    Kind -> Kinder
    Auto -> Autos
    Fläche -> Flächen
    Baum -> Bäume
    Grünfläche -> Grünflächen
    Gruß -> Grüße
    Jahr -> Jahren
    Einnahme -> Einnahmen
    Bank -> Bänke
    Kontrolle -> Kontrollen
    Leistung -> Leistungen
    Schule -> Schulen
    2_. -> 2.
    Frau -> Frauen
    Toilette -> Toiletten
    Veranstaltung -> Veranstaltungen
    Information -> Informationen
unkown phrase Stadt_Bonn
Stadt
token in wikt
Stadt
Bonn
    Stadt_Bonn -> Stadt Bonn
    Wohnung -> Wohnungen
    Entscheidung -> Entscheidungen
    Minute -> Minuten
    Radstreife -> Radstreifen
    Bürgerin -> Bürgerinnen
    Stellplatz -> Stellplätze
    

    Kunde -> Kunden
    Arzt -> Ärzte
    Kind -> Kinder
    Foto -> Fotos
    Mitglied -> Mitglieder
    Schuh -> Schuhe
    Mensch -> Menschen
    Protest -> Proteste
    Flüchtling -> Flüchtlinge
    Milliarde -> Milliarden
    Mensch -> Menschen
    Mensch -> Menschen
    Reis -> Reise
    Patient -> Patienten
    Milliarde -> Milliarden
    Fahrzeug -> Fahrzeuge
    Vorwurf -> Vorwürfe
    Tonne -> Tonnen
    Stunde -> Stunden
    Gast -> Gäste
    Farbe -> Farben
    Demonstrant -> Demonstranten
    Punkt -> Punkte
    Beamter -> Beamten
    Gerät -> Geräte
    Mensch -> Menschen
    Million -> Millionen
    Behörde -> Behörden
    Angeklagte -> Angeklagten
    Beschäftigte -> Beschäftigten
    Stimme -> Stimmen
    Folge -> Folgen
    Ei -> Eis
    Haar -> Haare
    Immobilie -> Immobilien
    Deutsch -> Deutschen
    Aktie -> Aktien
    Kunde -> Kunden
    Mensch -> Menschen
    Tote -> Toten
    Polizist -> Polizisten
    Mensch -> Menschen
    Produkt -> Produkte
    Tourist 

Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
OnlineParticipation,0,Bad Godesberg,Lage,Hauptbahnhof,Stadt,Pflastersteine,GAG,Rathaus,Berlin,Innenstadt,City
OnlineParticipation,1,Arbeit,Aufgabe,Toiletten,Personal,Steuern,Kosten,Finanzierung,Gesellschaft,Allgemeinheit,Stadt
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Redaktion,Bürger,Thema,Verwaltung,Bezirksvertretung,Grund,Stadt,Möglichkeit
OnlineParticipation,5,Fahrrad,Fahrradständer,Verwaltung,Bevölkerung,Rahmen,Jahren,Zuschüsse,Bürgervorschlag,Mehrheit,Fahrradverkehr
OnlineParticipation,6,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,NRW,Tourismus,Geld,Aktion
OnlineParticipation,7,Nutzung,Grünflächen,Veranstaltungen,Rheinaue,Stadt,LED,Bebauung,Veranstalter,Einfluss,Akademie
OnlineParticipation,10,Moderation,Grüße,Kommentar,Dank,Hallo,Hinweis,Dialog,Diskussion,Aussagen,Teilnehmer
OnlineParticipation,11,Miete,Luft,Bürger,Vermieter,Stadt,Bezirk,Mieter,Jahren,Köln,Objekte
OnlineParticipation,14,Museum,Eindruck,Informationen,Gefühl,Gegenteil,Politik,Stadt,Regel,Jahren,Lösung
OnlineParticipation,15,Haushalt,Einkommen,Kosten,Bauvorhaben,Vorhaben,Belastung,Umgebung,Mehreinnahmen,Jahren,Bürger


In [29]:
file = join(DATA_BASE, 'labels_unlem_X.csv')
df_labels_unlem = ul.unlemmatize_labels(df.loc[:, 'label0':'label19'])
df_labels_unlem.to_csv(file)
df_labels_unlem

    öffentlich_Hand -> Öffentliche Hand
    Verkehrsverbund_Pforzheim-Enzkreis -> Verkehrsverbund Pforzheim-Enzkreis
    Städte-_und_Gemeindebund_Nordrhein-Westfale -> Städte- und Gemeindebund Nordrhein-Westfalen
    sozial_Einrichtung -> Soziale Einrichtung
    Hundegesetz -> Hundegesetze
    deutsch_Fußballmeisterschaft_der_A-Junior -> Deutsche Fußballmeisterschaft der A-Junioren
    Hollerstaude -> Hollerstauden
    One_Equity_Partner -> One Equity Partners
    Beschleunigungsstreife -> Beschleunigungsstreifen
    zweispurig -> Zweispurig
    übertragen_Wirkungskreis -> Übertragener Wirkungskreis
    Beschleunigungsstreife -> Beschleunigungsstreifen
    Aspekt_Salzburg -> Aspekte Salzburg
    Arbeitskreis_selbständig_Kultur-Institut -> Arbeitskreis selbständiger Kultur-Institute
    frei_Entfaltung_der_Persönlichkeit -> Freie Entfaltung der Persönlichkeit
    Regierungskonsultation -> Regierungskonsultationen
    israelitisch_Kultusgemeinde -> Israelitische Kultusgemeinde
    zeitge

    Verbrechen_gegen_der_Menschlichkeit -> Verbrechen gegen die Menschlichkeit
    demokratisch_Gesellschaft -> Demokratische Gesellschaft
    industriell_Gemeinschaftsforschung -> Industrielle Gemeinschaftsforschung
    frei_Entfaltung_der_Persönlichkeit -> Freie Entfaltung der Persönlichkeit
    interkulturell_Dialog -> Interkultureller Dialog
    Un-Sonderbeauftragte -> UN-Sonderbeauftragter
    politisch_Ikonographie -> Politische Ikonographie
    politisch_Philosophie -> Politische Philosophie
    Copenhag_International_Film_Festival -> Copenhagen International Film Festival
    Arbeitskreis_selbständig_Kultur-Institut -> Arbeitskreis selbständiger Kultur-Institute
    Un-Sonderbeauftragte -> UN-Sonderbeauftragter
    beruflich_Handlungsfähigkeit -> Berufliche Handlungsfähigkeit
    Wolhyniendeutsch -> Wolhyniendeutsche
    politisch_Partei -> Politische Partei
    Prinzip_der_begrenzt_Einzelermächtigung -> Prinzip der begrenzten Einzelermächtigung
    romantisch_Komödie -> Romant

    schweizerisch_Flüchtlingshilfe -> Schweizerische Flüchtlingshilfe
    Prinzip_der_begrenzt_Einzelermächtigung -> Prinzip der begrenzten Einzelermächtigung
    historisch_Tatsache -> Historische Tatsachen
    deutsch_Bank -> Deutsche Bank
    digital_Kultur -> Digitale Kultur
    Reh -> Rehe
    Röstzwiebel -> Röstzwiebeln
    Pankreasenzym -> Pankreasenzyme
    pädagogisch_Hochschule -> Pädagogische Hochschule
    rot_Karte -> Rote Karte
    effektiv_Temperatur -> Effektive Temperatur
    alt_Haus -> Altes Haus
    nichts -> Nichts
    westfälisch_Wilhelms-Universität -> Westfälische Wilhelms-Universität
    Vergleichende_Sprachwissenschaft -> Vergleichende Sprachwissenschaft
    inner_Medizin -> Innere Medizin
    Yum_!_Brand -> Yum ! Brands
    Ermittlungsakt -> Ermittlungsakte
    Umts-Modem -> UMTS-Modem
    deutsch_Pflegerat -> Deutscher Pflegerat
    europäisch_Union -> Europäische Union
    Toggo_plus -> Toggo plus
    Landhaus_Scherrer -> Landhaus Scherrer
    Burgfestspiel

    Farn -> Farne
    zweite_Weltkrieg -> Zweiter Weltkrieg
    Die_Sonne -> Die Sonne
    Sonnenstern -> Sonnensterne
    sofortig_Beschwerde -> Sofortige Beschwerde
    Platzierungsrund -> Platzierungsrunde
    Angewandte_Kunst -> Angewandte Kunst
    Hauptstraße_34 -> Hauptstraße 34
    Haus_für_Kind -> Haus für Kinder
    Guilherand-Grang -> Guilherand-Granges
    Saint_Louis_Art_Museum -> Saint Louis Art Museum
    kosmisch_Staub -> Kosmischer Staub
    Die_Mutter -> Die Mutter
    Altria_Group -> Altria Group
    CIA -> Cia
    Maude_Adam -> Maude Adams
    Joch_Bendel -> Jochen Bendel
    Klaus_Höhne -> Klaus Höhne
    irakisch_Regierung -> Irakische Regierung
    historisch_Tatsache -> Historische Tatsachen
    islamisch_Emirat_Afghanistan -> Islamisches Emirat Afghanistan
    klein_Haus -> Kleines Haus
    Immobilienfond -> Immobilienfonds
    Full_Force -> Full Force
    häuslich_Gewalt -> Häusliche Gewalt
    Das_Erste -> Das Erste
    BIP -> Bip
    Nexus_5 -> Nexus 5
    i

    immer -> Immer
    öffentlich_Haushalt -> Öffentlicher Haushalt
    sozialdemokratisch_Gemeinschaft_für_Kommunalpolitik -> Sozialdemokratische Gemeinschaft für Kommunalpolitik
    Markthalle_München -> Markthallen München
    frankfurter_Alleenring -> Frankfurter Alleenring
    Sonntagabend -> SonntagAbend
    Vorbehalt_der_Gesetz -> Vorbehalt des Gesetzes
    zweispurig -> Zweispurig
    Ökumenische_Theologie -> Ökumenische Theologie
    hessisch_Filmförderung -> Hessische Filmförderung
    Finanz -> Finanzen
    polnisch_Aufstand -> Polnischer Aufstand
    Familienbund_der_Katholik -> Familienbund der Katholiken
    territorial_Integrität -> Territoriale Integrität
    hessisch_Filmförderung -> Hessische Filmförderung
    Forschung_und_Lehre -> Forschung und Lehre
    polnisch_Aufstand -> Polnischer Aufstand
    irakisch_Regierung -> Irakische Regierung
    Green_Economy -> Green Economy
    deutsch_historisch_Institut -> Deutsches Historisches Institut
    Il_Messaggero -> Il Me

Unnamed: 0_level_0,Unnamed: 1_level_0,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
OnlineParticipation,0,Altstadt,Historische Altstadt,Stadtmitte,Innenstadt,Historisches Fünfeck,Kernstadt,Seevorstadt-Ost/Großer Garten,Alt-Godesberg,Vorstadt,Altstadt II,Altes Rathaus,Weststadt,Bahnhofsvorplatz,Marktplatz,Statistischer Stadtteil,Südstadt,Rathausviertel,Neues Rathaus,S-Bahnhof,Bismarckstraße
OnlineParticipation,1,Öffentliche Hand,Aufwendung,Mitgliedsbeitrag,Wohnungswesen,Unterhaltung,Bahnversicherungsanstalt,Dienstleister,Verwaltung,Kalkulatorische Abschreibung,Infrastruktur,Zuschuss,Raumkosten,Mittelbare Staatsverwaltung,Öffentlicher Haushalt,Kommunalabgaben,Landeswohlfahrtsverband,Generaldirektion,Anschaffung,Übertragener Wirkungskreis,Verpflegung
OnlineParticipation,2,Kommunalpolitik,Bürgerschaft,Stadtrat,Mandatsträger,Vertretungskörperschaft,Stadtteilbüro,Düsseldorfer Stadtrat,Sozialdemokratische Gemeinschaft für Kommunalp...,Bürgerwerkstatt,Rat der Stadt,Amtsleiter,Ausschuss,Bürgerbeteiligung,Bezirksausschuss,Bürgerausschuss,Gremium,Landes- und Kommunalverwaltung,Mitentscheidung,Verbandsgemeinderat,Gemeinderat
OnlineParticipation,5,Verkehrsverbund Pforzheim-Enzkreis,Busbetrieb Olten Gösgen Gäu,Verkehrsverbund Schwarzwald-Baar,Radverkehr,Öffentliche Hand,Regio Verkehrsverbund Lörrach,Kornelimünster/Walheim,Umweltverbund,Öffentlicher Personennahverkehr,Nahverkehr,Verkehrsberuhigung,Verkehrsmittel,Kohäsionsfonds,Rottmoos,Gelegenheitsverkehr,Verkehrsgemeinschaft Niederrhein,Öffentliche Einrichtung,Verkehrsunternehmen,Verbundtarif Region Braunschweig,Öffentlicher Verkehr
OnlineParticipation,6,Städte- und Gemeindebund Nordrhein-Westfalen,Öffentliche Einrichtung,Soziale Einrichtung,Landeswohlfahrtsverband,Westfälisches Literaturbüro,Bünde-Mitte,Freier Träger,Sparkassenverband Westfalen-Lippe,Sozialdemokratische Gemeinschaft für Kommunalp...,Kulturzentrum,Mitgliedsbeitrag,Lippinghausen,Öffentliche Hand,Region Leinebergland,Schulentwicklungsplanung,Landes- und Kommunalverwaltung,Förderverein,Laut gegen Nazis,Zweckverband,Wirtschaftsförderung
OnlineParticipation,7,Freifläche,Naherholungsgebiet,Hardtberghalle,Grünfläche,Kulturzentrum,Altstadt,Revierpark,Kornelimünster/Walheim,Kongresszentrum,Sportstätte,Sichtachse,Kernstadt,Grünzug,Herrenteich,Innenstadt,Dellviertel,Mehrzweckhalle,Goldsteinpark,Historische Altstadt,Gebäudekomplex
OnlineParticipation,10,Bemerkung,Behauptung,Gespräch,Frage,Fernsehsendung,Show,Vortrag,Bericht,Schilderung,Rhetorische Frage,Erörterung,Offener Brief,Debatte,Zitat,Äußerung,Podiumsdiskussion,Ratschlag,SonntagAbend,Trockener Humor,Trackback
OnlineParticipation,11,Baugrundstück,Kaltmiete,Wohneigentum,Vergleichsmiete,Bewirtschaftungskosten,Wohnungsunternehmen,Kornelimünster/Walheim,Liegenschaftsamt,Notargebühr,Immobilie,Wohnungswesen,Untermieter,Mietvertrag,Wohnung,Mietausfall,Wohnraum,Altstadt,Mieterschutz,Kostenmiete,Stadtbezirk Innenstadt-West
OnlineParticipation,14,Offenheit,Überzeugung,Interesse,Selbst,Virtueller Agent,Erleben,Frage,Vorstellung,Dazu,Sozial,Gedanke,Einsicht,Alltag,Schilderung,Ausdruck,Informationsbedarf,Immer,Kontext,Strategie,Ansicht
OnlineParticipation,15,Aufwendung,Kommunalsteuer,Einkünfte,Steueraufkommen,Staatseinnahmen,Kapitalertrag,Baukosten,Kaufkraft,Erwerbseinkommen,Vermögenshaushalt,Bemessungsgrundlage,Bauprojekt,Investition,Bauvorhaben,Auszahlung,Staatsausgaben,Öffentlicher Haushalt,Zuschuss,Extrahaushalt,Schulgeld


In [15]:
dfd = combine('dewac', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfn = combine('n', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfp = combine('p', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfo = combine_simple(otopics, olabels, oscores, min_regular_terms=7, min_cnpmi=-0.05, min_pairsim=0.3)

Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/dewac_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/dewac_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates_ftx.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores_germanet.csv
c_npmi_wikt                0.123
pairwise_similarity_ftx    0.457
dtype: float64
average difference per topic between the mean of the individual ranks and the rank of the normalized mean: 2.12
72
Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/news_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/news_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/news_noun_bow_label-candidates.csv
Readin

In [16]:
dfd

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1
dewac,e42,100,36,Montag,Freitag,Donnerstag,Mittwoch,Dienstag,Tag,Monat,Sonntag,Woche,Samstag,Donnerstag,Dienstag,Freitag,Samstag,Wochenende,Mittwoch,Sonntag,Sonntagabend,Feiertag,Vormittag,Werktag,Tulpensonntag,Wochentag,Woche,heute_mittag,gut_Morgen_Österreich,Nachmittag,Adventssonntag,Hallo_Niedersachse,Termin
dewac,e42,100,62,Arbeitnehmer,Arbeitgeber,Beschäftigte,Betrieb,Gewerkschaft,Kündigung,Arbeitszeit,Betriebsrat,Arbeitsverhältnis,Arbeitsplatz,Beschäftigte,Belegschaft,Arbeitnehmer,Arbeitsverhältnis,Tarifvertrag,Arbeitskampf,Beschäftigungsverhältnis,Arbeitgeber,Betriebsrat,Massenentlassung,Arbeitsrecht,Arbeitsvertrag,Tarifvertragspartei,Freizeitausgleich,Tarifbindung,Kündigungsschutz,Tarifverhandlung,Gesamtbetriebsrat,Arbeitnehmervertretung,Firmentarifvertrag
dewac,e42,100,56,Studierender,Studium,Student,Semester,Studiengang,Seminar,Hochschule,Vorlesung,Kurs,Fach,Studiengang,Studienfach,Studium,Universität,Gasthörer,Hochschule,Semester,estnisch_Philologie,pädagogisch_Hochschule,Dozent,Master_of_Divinity,Fachbereich,Vorkurs,Fernstudium,Hochschulreif,Regelstudienzeit,Studium_general,Fachhochschulreif,integriert_Studiengang,Bachelor
dewac,e42,100,78,Arzt,Patient,Krankenhaus,Behandlung,Therapie,Klinik,Krankheit,Dr.,Medizin,Medikament,Therapie,Neuroonkologie,inner_Medizin,Patient,klinisch_Pharmakologie,Psychiatrie,Rheumatologie,Infektiologie,Erhaltungstherapie,Physikalisch_und_Rehabilitative_Medizin,Psychiater,Chefarzt,Facharzt,Hausarzt,konservativ_Therapie,Viszeralchirurgie,Herzchirurgie,systemisch_Erkrankung,psychosomatisch_Klinik,ärztlich_Behandlung
dewac,e42,100,26,Schule,Schüler,Lehrer,Unterricht,Schülerin,Klasse,Bildung,Lernen,Lehrerin,Grundschule,Schule,Sekundarstufe_I,erweitern_Realschule,Jahrgangsstufe,Vorkurs,Elementarschule,Schulklasse,Gymnasium,Schüler,Realschule,Regelschule,Hauptschule,Vorschule,Mittelschule,Oberschule,Klassenlehrer,Seminar_für_gelehrt_Schule,Realgymnasium,Schulunterricht,hoch_Mädchenschule
dewac,e42,100,85,Dr.,Prof.,Universität,Institut,Forschung,Professor,Hochschule,Wissenschaft,Wissenschaftler,Fakultät,medizinisch_Fakultät,Professor,Prorektor,Forschung_und_Lehre,technisch_Universität,Lehrstuhl,Universität,Universität_Innsbruck,westfälisch_Wilhelms-Universität,Hochschule,Dozent,Akademie_der_Wissenschaft,Forschungseinrichtung,Eberhard_Karl_Universität_Tübingen,technisch_Hochschule,Sozialwissenschaft,Universität_Kopenhag,Fachbereich,Humboldt-Universität_zu_Berlin,Honorarprofessor
dewac,e42,100,39,Frau,Mann,Vater,Mutter,Familie,Mädchen,Tochter,Sohn,Leben,Ehe,Stiefvater,Stiefmutter,Schwester,Hedwig,Cäcilie,Witwer,Vater,Elter,Mutter,Kind,Der_Vater,Frau,Anna,Kretheu,Enkel,Großeltern,Die_Mutter,Elisabeth,Adelheid,Sophie
dewac,e42,100,53,Salz,Minute,Ei,Gemüse,Zucker,Milch,Wasser,Fleisch,Butter,Rezept,Brühe,Bratensatz,Kräuterbutter,Würzmischung,Paniermehl,Sirup,Eigelb,Backware,Röstzwiebel,Crème_fraîche,Käse,Reismehl,Sahnecreme,Zuckersirup,Brät,Teig,Sahne,Blanchieren,Joghurt,Mehlschwitz
dewac,e42,100,4,Musik,Band,Konzert,CD,Stück,Lied,Bühne,Song,Publikum,Musiker,Duett,Begleitband,Rockband,Soundtrack,Lied,Tracks,Musik_sein,Singer-Songwriter,Live-Album,Bonustrack,B-Seite,Buried_Alive,live,Auftritt,Doppelalbum,Aufführung,Coverversion,klassisch_Musik,Akustikversion,Konzert
dewac,e42,100,47,Tier,Hund,Pferd,Katze,Wolf,Vogel,Jäger,Schwein,Kuh,Ei,Ziege,Schaf,Wildschwein,Hauskatze,Kaninchen,Haustier,Geflügel,Vieh,Reh,Katze,Wildpferd,Nutztier,Hund,Haushund,Großkatze,Rothirsch,Braunbär,Affe,Gans,Ochse
