# Topic Selection and Postprocessing

In [1]:
%matplotlib inline
import pickle
from os import listdir, makedirs
from os.path import join, isfile, exists, dirname
import gc
import re
import math

import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import seaborn as sns
%pylab inline
import numpy as np
import pandas as pd
from gensim.corpora import Dictionary, MmCorpus
from gensim.models import TfidfModel, LdaModel
from gensim.models import Word2Vec, Doc2Vec, FastText
from gensim.corpora import Dictionary
from gensim.models import CoherenceModel
from tqdm._tqdm_notebook import tqdm_notebook

from constants import *
from utils import load, init_logging, tprint, TopicsLoader, Unlemmatizer
from topic_reranking import Reranker

tqdm_notebook.pandas()

Populating the interactive namespace from numpy and matplotlib


In [2]:
pd.options.display.max_columns = 80
pd.options.display.max_rows = 2000
pd.options.display.precision = 3

-----

## Joining Topics / Labels / Scores

In [3]:
phra = load('phrases', 'lemmap')
wikt = load('wikt', 'lemmap')

Loading ../data/preprocessed/dewiki_phrases_lemmatization_map.pickle


In [4]:
args = ['e42', 100]
metrics = ['c_npmi_wikt', 'pairwise_similarity_ftx']

def combine(dataset, min_regular_terms=6, min_cnpmi=0, min_pairsim=0.3):
    topics = load(dataset, 'topics', *args)
    labels_w2v = load(dataset, 'labels', *args, 'w2v', 'minimal').rename(columns=lambda x: x + '_w2v').reset_index(level='label_method', drop=True)
    labels_ftx = load(dataset, 'labels', *args, 'ftx', 'minimal').rename(columns=lambda x: x + '_ftx').reset_index(level='label_method', drop=True)
    scores = load(dataset, 'scores', *args, 'ftx', 'minimal')[metrics]

    scores['rank_cnpmi'] = scores.c_npmi_wikt.rank()
    scores['rank_pairsim'] = scores.pairwise_similarity_ftx.rank()
    scores['rank_mean'] = (scores.rank_cnpmi + scores.rank_pairsim) / 2
    col_mean = scores[metrics].mean()
    col_stdv = scores[metrics].std()
    print(col_mean)
    scores_norm = (scores[metrics] - col_mean) / col_stdv
    scores_norm = scores_norm.rename(columns=lambda x: x + '_norm')
    scores_norm['avg'] = scores_norm.mean(axis=1)
    scores = scores.join(scores_norm)
    scores['avg_rank'] = scores.avg.rank()
    print('average difference per topic between the mean of the individual ranks and the rank of the normalized mean:', (scores.rank_mean - scores.avg_rank).abs().sum() / len(scores))
    # an advantage of ranking by taking the normalized mean: minimal chance of equal ranks -> disadvantage: metric is not comparable to other datasets anymore -> use metrics as a filter

    df = pd.concat([topics, labels_w2v, labels_ftx, scores], axis=1)
    df['count_regular_terms'] = df.loc[:, 'term0':'term9'].applymap(lambda x: x in wikt.index).sum(axis=1)
    df = df.query('count_regular_terms >= @min_regular_terms and c_npmi_wikt >= @min_cnpmi and pairwise_similarity_ftx >= @min_pairsim')
    print(len(df))
    df = df.sort_values('avg_rank', ascending=False)
    return df

In [5]:
dfd = combine('dewac', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfn = combine('n', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfs = combine('s', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfo = combine('o', min_regular_terms=6, min_cnpmi=-0.1, min_pairsim=0.3)

Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/dewac_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/dewac_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_label-candidates_ftx.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/dewac_noun_bow_topic-scores_germanet.csv
c_npmi_wikt                0.123
pairwise_similarity_ftx    0.457
dtype: float64
average difference per topic between the mean of the individual ranks and the rank of the normalized mean: 2.12
72
Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/news_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/news_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/news_noun_bow_label-candidates.csv
Readin

In [12]:
dfp = combine('p', min_regular_terms=7, min_cnpmi=0.05, min_pairsim=0.3)
dfp

Loading dictionary from ../data/preprocessed/LDAmodel/noun/bow/PoliticalSpeeches_noun_bow.dict
Loading model from ../data/preprocessed/LDAmodel/noun/bow/e42/PoliticalSpeeches_LDAmodel_e42_100_ep30
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/PoliticalSpeeches_noun_bow_label-candidates.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/PoliticalSpeeches_noun_bow_label-candidates_ftx.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/PoliticalSpeeches_noun_bow_topic-scores.csv
Reading ../data/preprocessed/LDAmodel/noun/bow/topics/PoliticalSpeeches_noun_bow_topic-scores_germanet.csv
c_npmi_wikt                0.050
pairwise_similarity_ftx    0.374
dtype: float64
average difference per topic between the mean of the individual ranks and the rank of the normalized mean: 2.26
43


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9,label0_w2v,label1_w2v,label2_w2v,label3_w2v,label4_w2v,label5_w2v,label6_w2v,label7_w2v,label8_w2v,label9_w2v,label10_w2v,label11_w2v,label12_w2v,label13_w2v,label14_w2v,label15_w2v,label16_w2v,label17_w2v,label18_w2v,label19_w2v,label0_ftx,label1_ftx,label2_ftx,label3_ftx,label4_ftx,label5_ftx,label6_ftx,label7_ftx,label8_ftx,label9_ftx,label10_ftx,label11_ftx,label12_ftx,label13_ftx,label14_ftx,label15_ftx,label16_ftx,label17_ftx,label18_ftx,label19_ftx,c_npmi_wikt,pairwise_similarity_ftx,rank_cnpmi,rank_pairsim,rank_mean,c_npmi_wikt_norm,pairwise_similarity_ftx_norm,avg,avg_rank,count_regular_terms
dataset,param_id,nb_topics,topic_idx,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1
PoliticalSpeeches,e42,100,32,Opfer,Erinnerung,Jude,Auschwitz,Holocaust,Denkmal,Völkermord,Verbrechen,Gedenken,Nationalsozialismus,Holocaust,Mahnmal,Gedenkstätte,Konzentrationslager,Massenmord,Verbrechen_gegen_der_Menschlichkeit,Porajmos,Vernichtungslager,Antisemitismus,Völkermord_an_der_Armenier,Völkermord,Deportation,kommunistisch_Verbrechen,Verbrechen_der_Wehrmacht,Yad_Vashem,Pogrom,Shoah,politisch_Verfolgung,Endphaseverbrechen,Massaker_von_Jedwabne,Holocaust,Mahnmal,Gedenkstätte,Konzentrationslager,Verbrechen_gegen_der_Menschlichkeit,Verbrechen_der_Wehrmacht,Massenmord,Vernichtungslager,volksdeutscher_Selbstschutz,politisch_Verfolgung,Antisemitismus,Deportation,Porajmos,Holocaustliteratur,Endphaseverbrechen,jüdisch_Opfer_der_Nationalsozialismus,Holocaustforschung,Erinnerungskultur,Massaker_von_Jedwabne,todesmarsch,0.217,0.506,100.0,100.0,100.0,2.89,2.632,2.761,100.0,9
PoliticalSpeeches,e42,100,62,Film,Kino,deutsch_Film,Berlinale,Produzent,Filmförderung,Erfolg,Regisseur,Euro,Produktion,Spielfilm,Heinz_Willeg,Roel_Reiné,Peter_Chelsom,Michael_Schaack,Copenhag_International_Film_Festival,Darsteller,Filmkritiker,Andrew_Birkin,deutsch_Film,Independent-Film,Filmstart,Film,Filmpreis,Stephen_Herek,Filmproduktion,hessisch_Filmförderung,Filmproduzent,C-Film,Drehbuchautor,neu_deutsch_Filmgesellschaft,Preis_der_deutsch_Filmkritik,Copenhag_International_Film_Festival,Spielfilm,X_Film_Creative_Pool,hessisch_Filmförderung,Göteborg_International_Film_Festival,international_Filmfest_Emden-Norderney,österreichisch_Filmgeschichte,international_Filmfestival_Shanghai,Wiedemann_&_Berg_Filmproduktion,Förderpreis_neu_deutsch_Kino,Torsten_C._Fischer,Andrew_Birkin,Independent-Film,österreichisch_Filmpreis,us-amerikanisch_Filmproduktionsgesellschaft,jiddisch_Film,Filmkritiker,Dor_Film,0.167,0.461,97.0,94.0,95.5,2.027,1.744,1.886,99.0,8
PoliticalSpeeches,e42,100,11,Universität,Hochschule,Studierender,Student,Bildung,Studium,Professor,Wissen,Freiheit,Wissenschaft,Studienfach,Studiengang,Universität,Hochschule,estnisch_Philologie,medizinisch_Fakultät,Forschung_und_Lehre,Dozent,Staatswissenschaft,technisch_Universität,Kunsthochschule,Fachbereich,Humanwissenschaft,pädagogisch_Hochschule,Prorektor,Master_of_Divinity,Studium,Akademie,technisch_Hochschule,Sozialwissenschaft,Bildungswissenschaft,medizinisch_Universität,Studienfach,Studiengang,katholisch_Universität_Lyon,pädagogisch_Hochschule_Ruhr,Universität_Maribor,Hochschule,Universität,katholisch_Hochschule_Mainz,staatlich_Universität_Baku,technisch_Universität,Fachbereich,Universität_und_gleichgestellt_Hochschule,philosophisch_Fakultät_der_Karls-Universität,pädagogisch_Hochschule_Berlin,Ostasienwissenschaft,Geschichte_der_Universität,chinesisch_Akademie_der_Sozialwissenschaft,schlesisch_Universität,0.14,0.485,95.0,98.0,96.5,1.555,2.215,1.885,98.0,9
PoliticalSpeeches,e42,100,75,Abrüstung,Iran,Rüstungskontrolle,Nuklearwaffe,Ziel,Vertrag,Bundesregierung,Atomwaffe,Staat,Nichtverbreitung,Atomwaffensperrvertrag,Rüstungskontrolle,Abrüstung,Abm-Vertrag,Kernwaffe,Friedenssicherung,Inf-Vertrag,NATO,Verzicht_auf_der_Ersteinsatz,kalt_Krieg,Verteidigungspolitik,nuklear_Teilhabe,Mitgliedstaat,Atommacht,iranisch_Atomprogramm,Charta_der_Vereinte_Nation,irakisch_Regierung,Militärbündnis,Partnerschaft_für_der_Friede,kollektiv_Sicherheit,Atomwaffensperrvertrag,Friedenssicherung,Rüstungskontrolle,Abm-Vertrag,Verteidigungspolitik,Atomwaffenverbotsvertrag,irakisch_Regierung,Abrüstung,Verzicht_auf_der_Ersteinsatz,Inf-Vertrag,kollektiv_Sicherheit,Kernwaffenteststopp-Vertrag,iranisch_Atomprogramm,Verteidigungsminister_der_vereinigen_Staat,nuklear_Teilhabe,Kernwaffe,national_Sicherheitsrat,Charta_der_Vereinte_Nation,Außenpolitik_der_vereinigen_Staat,eurasisch_Wirtschaftsgemeinschaft,0.197,0.431,99.0,88.0,93.5,2.545,1.136,1.84,97.0,7
PoliticalSpeeches,e42,100,14,Schule,Schüler,Sprache,Lehrer,Schülerin,Deutsch,Kind,deutsch_Sprache,Lehrerin,Wettbewerb,Fremdsprache,Schule,Gymnasium,Sekundarstufe_I,Deutschunterricht,Schüler,Vorkurs,Elementarschule,Lehrer,Vorschule,hoch_Töchterschule,hoch_Mädchenschule,Seminar_für_gelehrt_Schule,Jahrgangsstufe,Unterrichtsfach,Religionsunterricht,Realschule,Schulklasse,Schulunterricht,Grundschule,Fremdsprache,Deutschunterricht,Fremdsprachenunterricht,naturwissenschaftlich_Unterricht,Vorschule,Schule,Elementarschule,Berufsgrundschuljahr,Hebräischunterricht,ordentlich_Lehrfach,Sprachunterricht,Kunsterziehung,Klassenlehrer,Gymnasium,Wahlpflichtunterricht,Schüler,Vorkurs,Griechischunterricht,Seminar_für_gelehrt_Schule,Regelschule,0.125,0.493,94.0,99.0,96.5,1.299,2.371,1.835,96.0,9
PoliticalSpeeches,e42,100,72,Gewerkschaft,Unternehmen,Arbeitnehmer,Mitbestimmung,Arbeit,Interesse,Betrieb,Beschäftigte,Politik,Arbeitgeber,Belegschaft,Beschäftigte,Arbeitnehmervertretung,sozial_Angelegenheit,Arbeitskampf,Arbeitnehmer,Arbeitgeberverband,Betriebsrat,Tarifvertragspartei,Tarifverhandlung,Arbeitsverhältnis,Tarifpolitik,Vereinigung_der_kommunal_Arbeitgeberverband,Gewerkschaft,Mitarbeiter,Arbeitsrecht,Betriebsrentengesetz,öffentlich_Dienst,Sprecherausschuss,Wirtschaftsverband,Belegschaft,Arbeitnehmervertretung,Beschäftigungssicherung,europäisch_Gewerkschaftsverband,Beschäftigte,Vereinigung_der_kommunal_Arbeitgeberverband,Tarifvertragspartei,Unternehmensmitbestimmung,Rentenversicherung_der_Arbeiter,Tarifverhandlung,Arbeitsvermittlung,Wirtschaftsverband,Betriebsgewerkschaftsleitung,Vereinigung_der_deutsch_Arbeitgeberverband,sozial_Angelegenheit,christlich_Gewerkschaft_Deutschland,Arbeitgeberverband,Arbeitskampf,Integrationsunternehmen,wirtschaftlich_Geschäftsbetrieb,0.144,0.473,96.0,96.0,96.0,1.635,1.977,1.806,95.0,9
PoliticalSpeeches,e42,100,84,erneuerbar_Energie,Ziel,Klimawandel,Nachhaltigkeit,Klimaschutz,Thema,Entwicklung,Prozent,Umwelt,Energieversorgung,Klimaschutz,Klimapolitik,Energiewende,erneuerbar_Energie,nachhaltig_Entwicklung,Energieeffizienz,World_Resources_Institut,Fachagentur_nachwachsend_Rohstoff,Umwelttechnik,Umweltpolitik,natürlich_Ressource,ökologisch_Wirtschaft,Institut_für_ökologisch_Wirtschaftsforschung,nachhaltig_Energie,Nachhaltigkeitsstrategie,Energieagentur,Green_Economy,Umweltschutz,Elektromobilität,Energiewirtschaft,nachhaltig_Energie,ökologisch_Wirtschaft,Nachhaltigkeitsstrategie,Energiewende,Klimaschutz,industriell_Gemeinschaftsforschung,Klimapolitik,sozial_Nachhaltigkeit,erneuerbar_Energie,Umweltberatung,Fachagentur_nachwachsend_Rohstoff,nachhaltig_Entwicklung,Umwelttechnik,global_Wandel,Regionalentwicklung,Technologiepolitik,Energieeffizienz,Institut_für_ökologisch_Wirtschaftsforschung,Umweltplanung,Ressourceneffizienz,0.168,0.447,98.0,91.0,94.5,2.043,1.451,1.747,94.0,9
PoliticalSpeeches,e42,100,0,Wissenschaft,Forschung,Wissenschaftler,Erkenntnis,Professor,Politik,Kunst,Forscher,Krankheit,Gesellschaft,Naturwissenschaftler,Wissenschaft,Grundlagenforschung,Humanwissenschaft,Forschung_und_Lehre,Methodologie,Wissenschaftler,wissenschaftlich_Gesellschaft,Runologie,Forschung,Philosophie,Sozialwissenschaft,Fachgebiet,Anthropologie,Neurowissenschaft,Akademie_der_Wissenschaft,Philologie,Medizingeschichte,wissenschaftlich_Arbeit,deutsch_historisch_Institut,Humanwissenschaft,Forschungsmethode,Naturwissenschaftler,Grundlagenforschung,Wissensgeschichte,interdisziplinär_Wissenschaft,Wissenschaft,Entwicklungsforschung,wissenschaftlich_Gesellschaft,theoretisch_Wissenschaft,Wissenschaftssoziologie,Wissenschaftsforschung,Wissenschaftskolleg,Runologie,praktisch_Wissenschaft,Forschung_und_Lehre,Bildungswissenschaft,jung_Wissenschaft,Wissenschaftspolitik,Sozialwissenschaft,0.114,0.475,90.0,97.0,93.5,1.108,2.022,1.565,93.0,10
PoliticalSpeeches,e42,100,65,Buch,Literatur,Schriftsteller,Kultur,Autor,Sprache,Werk,Geschichte,Berlin,Wort,Dichter,Philologie,Literaturkritiker,Prosa,Weltliteratur,Dramatiker,Lyrik,Text,Anthologie,Erzählung,Schrift,Sammelband,Essay,Historiker,Schriftsteller,Gegenwartsliteratur,Literaturwissenschaft,Literaturgeschichte,Publizist,Literatur,romanisch_Literaturwissenschaft,Dichter,jiddisch_Literatur,Editionswissenschaft,Literaturkritiker,Sittengeschichte,deutsch_Sprachgeschichte,empirisch_Literaturwissenschaft,neulateinisch_Literatur,Weltliteratur,Redaktionsgeschichte,interkulturell_Literatur,afrikanisch_Literatur,europäisch_Sprache,Nationalliteratur,Geschichte_der_Sprachwissenschaft,Prosa,Geschichte_der_Geschichtsschreibung,ungarisch_Literatur,Literaturwissenschaft,0.114,0.464,89.0,95.0,92.0,1.106,1.8,1.453,92.0,9
PoliticalSpeeches,e42,100,38,Freiheit,Recht,Gesellschaft,Staat,Demokratie,Bürger,Verantwortung,Erfahrung,Wert,Rechtsstaat,Demokratie,Gesellschaftsordnung,Freiheitsrecht,Wirtschaftsordnung,Rechtsordnung,frei_Entfaltung_der_Persönlichkeit,Selbstbestimmungsrecht,Menschenrecht,politisch_System,Grundrecht,sozial_Ordnung,Volkssouveränität,Gemeinwesen,Gesinnung,demokratisch_Gesellschaft,Liberalismus,Gemeinwohl,Mitentscheidung,Rechtsstaat,Verfassung,demokratisch_Gesellschaft,Wirtschaftsordnung,Gesellschaftsordnung,Selbstbestimmungsrecht,frei_Entfaltung_der_Persönlichkeit,Freiheitsrecht,politisch_Willensbildung,Organisationsrecht,Vereinigungsfreiheit,Wirtschaftsfreiheit,Gesinnung,politisch_System,Rechtsordnung,Verfassungswirklichkeit,Verfassungsgrundsatz,Gemeinwesen,Menschenrecht,Meinungsbildung,Demokratie,Handlungsfreiheit,0.121,0.452,93.0,93.0,93.0,1.226,1.552,1.389,91.0,10


In [13]:
df = pd.concat([dfd, dfn, dfp, dfo]).loc[:, 'term0':'label19_w2v'].rename(columns=lambda x: x.replace('_w2v', '')).reset_index(level=['param_id', 'nb_topics'], drop=True).sort_index()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
OnlineParticipation,1,Arbeit,Gesellschaft,Personal,Falschparker,Steuer,Finanzierung,Kommune,Kraft,Mensch,Stadt,öffentlich_Hand,übertragen_Wirkungskreis,Aufwendung,eigen_Wirkungskreis,Mitgliedsbeitrag,öffentlich_Verwaltung,öffentlich_Haushalt,Sozialleistung,mittelbar_Staatsverwaltung,Landeswohlfahrtsverband,Wohnungswesen,Aufgabenträger,Beschäftigte,Vereinigung_der_kommunal_Arbeitgeberverband,Behörde,regional_Planungsverband,Kommunalabgabengesetz,Verband_der_Diözese_Deutschland,Eisenbahn_der_Bund,Ausgleichsabgabe
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Verwaltung,Redaktion,Thema,Umsetzung,Bürger,Bezirksvertretung,Grund,Möglichkeit,Kommunalpolitik,Bürgerwerkstatt,Mitentscheidung,Bürgerbeteiligung,Stadtteilbüro,parlamentarisch_Anfrage,Mandatsträger,Gremium,übertragen_Wirkungskreis,Ausschuss,Vertretungskörperschaft,Bürgerschaft,Frage,Behörde,Bundespolitik,sozialdemokratisch_Gemeinschaft_für_Kommunalpo...,Verbandsgemeinderat,Haushaltsvollzug,Landespolitik,Volksvertretung
OnlineParticipation,3,Seite,Brücke,Kreisverkehr,Beuel,Pkw,Umweg,Verkehrsteilnehmer,Lkw,Rodenkirche,KM,Straßenbrücke,Fußgängerbrücke,zweispurig,Beschleunigungsstreife,Bundesstraße_264,Bundesstraße_478,Bundesstraße_482,Nothaltebucht,Kraftfahrstraße,Haltestellenkap,Gegenverkehr,Unterführung,Zubringerstraße,Autobahn,einspurig,Stadtautobahn,Bundesstraße_426,Radfernweg_thüringer_Städtekette,N33,Bundesstraße_277
OnlineParticipation,4,Köln,Stadt,Sache,Familie,Mann,Jahr,Stadt_Köln,Sommer,Dom,Bürger,Wetken,Eberhard_i._von_Berg-Altena,Lechenich,Mainz,Altstadt,Köln,Münster,kölner_Domkapitel,Speyer,Christoph_von_Baden,Dompropst,Oberbürgermeister,Mülheim,Stadt,Neuss,Krefeld,Düren,Paderborn,Bürgerschaft,Erzbistum_Köln
OnlineParticipation,6,Idee,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,Staat,Super,Wuppertaler,Centre-Sud,Der_Staat,Stadt,öffentlich_Einrichtung,Erbschlö-Linde,Hücker-Asche,öffentlich_Bibliothek,Hixter,Mikroregion_Entorno_de_Brasília,öffentlich_Hand,Stadtstaat,Mesoregion_Ost-Goiás,Gemeinde,Städtebund,frei_Stadt,Gebietskörperschaft,frei_Hansestadt_Bremen,Gemeinwesen,Deutschland,evangelisch_Entwicklungsdienst
OnlineParticipation,7,Nutzung,Ehrenfeld,Grünfläche,Veranstaltung,Gelände,Rheinaue,LED,Bebauung,Veranstalter,Stadt,Freifläche,Naherholungsgebiet,Hardtberghalle,Grünfläche,Gruga,Altstadt,Innenstadt,Baugrundstück,Fritz-Schloß-Park,Revierpark,Weststadt,Grünzug,Alt-Godesberg,Kongresszentrum,Hollerstaude,Dellviertel,Liegenschaftsamt,Volkspark,Sportstätte,Sichtachse
OnlineParticipation,8,Schüler,Schülerin,Turnhalle,Austausch,Gestaltung,Beteiligung,Freizeit,Entwicklung,Jahr,Eintritt,Vorkurs,Schule,Seminar_für_gelehrt_Schule,Sekundarstufe_I,Schulklasse,Schule_der_Brede,Jugendraum,Betriebserkundung,Sportunterricht,Bildungseinrichtung,Lehrerfortbildung,Franz-Stock-Gymnasium,Unterrichtsfach,Chorklasse,Bildungsgang,Schüleraustausch,Fachlehrer,Schuljahr,Musikschule,Lehrer
OnlineParticipation,11,Gebäude,Miete,Luft,Stadt,Investor,Kosten,Eigentümer,Mieter,Vermieter,Objekt,Immobilie,Wohneigentum,Baugrundstück,Immobilienfond,Kaltmiete,Mietminderung,Mietgarantie,Bewirtschaftungskosten,Mietausfall,Immobiliengesellschaft,Notargebühr,Mietvertrag,Raumkosten,Vergleichsmiete,Nebenkosten,Miete,Betriebskosten,Wohnungsunternehmen,Grundstück,Leerstand
OnlineParticipation,13,Schlagloch,Zone,Stadtgebiet,Straße,Regen,Abend,Bereich,Zufahrt,Neumarkt,Zustand,Nationalstraße_B4,Freifläche,Fahrweg,Altstadt,nördlich_Neustadt,Route_39,Unterführung,Kernstadt,la_Jarrie,Innenstadt,klein_Straße,Fußgängerbrücke,statistisch_Stadtteil,Route_11,Route_23,Stadtgrenze,Ortslage,Durchlass,Straßenkreuzung,Stadtautobahn
OnlineParticipation,14,Lösung,Eindruck,Gegenteil,Änderung,Gefühl,Problem,Route,Stadt,Regel,Jahr,Konsequenz,da,Unsicherheit,Situation,glatt_Kurve,Notwendigkeit,Anstrengung,Frage,dazu,emotional_Stabilität,immer,Veränderung,trotz,absolut_Galoisgruppe,Einsicht,gar,Steilheit,Gedanke,selbst,Logikschaltung


In [14]:
file = join(DATA_BASE, 'topics_labels.csv')
df.to_csv(file)

In [8]:
ul = Unlemmatizer()

Loading ../data/preprocessed/dewiki_phrases_lemmatization_map.pickle


In [15]:
df.loc[:, 'term0':'term9']

Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
OnlineParticipation,1,Arbeit,Gesellschaft,Personal,Falschparker,Steuer,Finanzierung,Kommune,Kraft,Mensch,Stadt
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Verwaltung,Redaktion,Thema,Umsetzung,Bürger,Bezirksvertretung,Grund,Möglichkeit
OnlineParticipation,3,Seite,Brücke,Kreisverkehr,Beuel,Pkw,Umweg,Verkehrsteilnehmer,Lkw,Rodenkirche,KM
OnlineParticipation,4,Köln,Stadt,Sache,Familie,Mann,Jahr,Stadt_Köln,Sommer,Dom,Bürger
OnlineParticipation,6,Idee,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,Staat,Super,Wuppertaler
OnlineParticipation,7,Nutzung,Ehrenfeld,Grünfläche,Veranstaltung,Gelände,Rheinaue,LED,Bebauung,Veranstalter,Stadt
OnlineParticipation,8,Schüler,Schülerin,Turnhalle,Austausch,Gestaltung,Beteiligung,Freizeit,Entwicklung,Jahr,Eintritt
OnlineParticipation,11,Gebäude,Miete,Luft,Stadt,Investor,Kosten,Eigentümer,Mieter,Vermieter,Objekt
OnlineParticipation,13,Schlagloch,Zone,Stadtgebiet,Straße,Regen,Abend,Bereich,Zufahrt,Neumarkt,Zustand
OnlineParticipation,14,Lösung,Eindruck,Gegenteil,Änderung,Gefühl,Problem,Route,Stadt,Regel,Jahr


In [16]:
file = join(DATA_BASE, 'topics_unlem.csv')
df_topics_unlem = ul.unlemmatize_topics(df.loc[:, 'term0':'term9'])
df_topics_unlem.to_csv(file)
df_topics_unlem

Loading ../data/preprocessed/OnlineParticipation_lemmatization_map.pickle
    Schlagloch -> Schlaglöcher
    Stadt_Köln -> Stadt Köln
    Hund -> Hunde
    Kind -> Kinder
    Wohnung -> Wohnungen
    Auto -> Autos
    Fläche -> Flächen
    Bus -> Busse
    Schlagloch -> Schlaglöcher
    Stadt_Köln -> Stadt Köln
    Hund -> Hunde
    Kind -> Kinder
    Wohnung -> Wohnungen
    Auto -> Autos
    Fläche -> Flächen
    Bus -> Busse
    Schülerin -> Schülerinnen
    Jahr -> Jahren
    Kontrolle -> Kontrollen
    Leistung -> Leistungen
    Gruß -> Grüße
    Schule -> Schulen
    Jahr -> Jahren
    Frau -> Frauen
    Stunde -> Stunden
    Stellplatz -> Stellplätze
    Grünfläche -> Grünflächen
    Million -> Millionen
    Mensch -> Menschen
    Bank -> Bänke
    Student -> Studenten
    Gedanke -> Gedanken
    Jahr -> Jahren
    Gleis -> Gleise
    Tonne -> Tonnen
    Aussage -> Aussagen
    Familie -> Familien
    Veranstaltung -> Veranstaltungen
    Schuld -> Schulden
    Flüchtling -> Flüc

    Haar -> Haare
    Immobilie -> Immobilien
    Deutsch -> Deutschen
    Aktie -> Aktien
    Kunde -> Kunden
    Mensch -> Menschen
    Tote -> Toten
    Polizist -> Polizisten
    Mensch -> Menschen
    Produkt -> Produkte
    Tourist -> Touristen
    Temperatur -> Temperaturen
    Mensch -> Menschen
    Information -> Informationen
    Angestellte -> Angestellten
    Fan -> Fans
    Kandidat -> Kandidaten
    Abgeordnete -> Abgeordneten
    Minute -> Minuten
    Mensch -> Menschen
    Hesse -> Hessen
    deutsch_Bank -> Deutsche Bank
    Mensch -> Menschen
    Übergriff -> Übergriffe
    Monat -> Monaten
    Angabe -> Angaben
    Elter -> Eltern
    von_der_Leyen -> Von der Leyen
    Arbeitsplatz -> Arbeitsplätze
    Bundesland -> Bundesländern
    Migrant -> Migranten
    Million -> Millionen
    Zins -> Zinsen
    Soldat -> Soldaten
    Passagier -> Passagiere
    Filiale -> Filialen
    Medikament -> Medikamente
    Fotograf -> Fotografen
    Gerät -> Geräte
    Media -> Medien


Unnamed: 0_level_0,Unnamed: 1_level_0,term0,term1,term2,term3,term4,term5,term6,term7,term8,term9
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
OnlineParticipation,1,Arbeit,Gesellschaft,Personal,Falschparker,Steuern,Finanzierung,Kommunen,Kraft,Menschen,Stadt
OnlineParticipation,2,Vorschlag,Bürgerhaushalt,Verwaltung,Redaktion,Thema,Umsetzung,Bürger,Bezirksvertretung,Grund,Möglichkeit
OnlineParticipation,3,Seite,Brücke,Kreisverkehr,Beuel,PKWs,Umweg,Verkehrsteilnehmer,LKWs,Rodenkirchen,KM
OnlineParticipation,4,Köln,Stadt,Sache,Familien,Mann,Jahren,Stadt Köln,Sommer,Dom,Bürger
OnlineParticipation,6,Idee,Stadt,Land,Wuppertal,Bücherei,Bund,Bürger,Staat,Super,Wuppertaler
OnlineParticipation,7,Nutzung,Ehrenfeld,Grünflächen,Veranstaltungen,Gelände,Rheinaue,LED,Bebauung,Veranstalter,Stadt
OnlineParticipation,8,Schüler,Schülerinnen,Turnhalle,Austausch,Gestaltung,Beteiligung,Freizeit,Entwicklung,Jahren,Eintritt
OnlineParticipation,11,Gebäude,Miete,Luft,Stadt,Investoren,Kosten,Eigentümer,Mieter,Vermieter,Objekte
OnlineParticipation,13,Schlaglöcher,Zone,Stadtgebiet,Straße,Regen,Abend,Bereich,Zufahrt,Neumarkt,Zustand
OnlineParticipation,14,Lösung,Eindruck,Gegenteil,Änderung,Gefühl,Problem,Route,Stadt,Regel,Jahren


In [17]:
file = join(DATA_BASE, 'labels_unlem.csv')
df_labels_unlem = ul.unlemmatize_labels(df.loc[:, 'label0':'label19'])
df_labels_unlem.to_csv(file)
df_labels_unlem

    öffentlich_Hand -> Öffentliche Hand
    Nationalstraße_B4 -> Nationalstraße B4
    franzen_Anton_Ries -> Franz Anton Ries
    Stadtwerk_Leipzig -> Stadtwerke Leipzig
    zweispurig -> Zweispurig
    sozial_Einrichtung -> Soziale Einrichtung
    Kanton_la_Tour-du-Pin -> Kanton La Tour-du-Pin
    da -> Da
    immer -> Immer
    Sonntagabend -> SonntagAbend
    Radfernweg_thüringer_Städtekette -> Radfernweg Thüringer Städtekette
    Aspekt_Salzburg -> Aspekte Salzburg
    Arbeitskreis_selbständig_Kultur-Institut -> Arbeitskreis selbständiger Kultur-Institute
    frei_Entfaltung_der_Persönlichkeit -> Freie Entfaltung der Persönlichkeit
    Regierungskonsultation -> Regierungskonsultationen
    israelitisch_Kultusgemeinde -> Israelitische Kultusgemeinde
    zeitgenössisch_Kunst -> Zeitgenössische Kunst
    visuell_Anthropologie -> Visuelle Anthropologie
    sozial_Engagement -> Soziales Engagement
    Menschenrecht -> Menschenrechte
    elektronisch_Media -> Elektronische Medien
    jun

    Lied -> Lieder
    heute_mittag -> Heute mittag
    Die_Polizei -> Die Polizei
    Android_TV -> Android TV
    Tall_Abyad -> Tall Abyad
    Million -> Millionen
    öffentlich_Haushalt -> Öffentlicher Haushalt
    Bundesstraße_482 -> Bundesstraße 482
    öffentlich_Bibliothek -> Öffentliche Bibliothek
    Staatsausgabe -> Staatsausgaben
    Communauté_D’Agglomération_de_Lens-Liévin -> Communauté d’agglomération de Lens-Liévin
    Staatseinnahme -> Staatseinnahmen
    öffentlich_Ruhe -> Öffentliche Ruhe
    technisch_Universität -> Technische Universität
    Kanton_Les_Deux_Rives -> Kanton Les Deux Rives
    sozial_Einrichtung -> Soziale Einrichtung
    mäßig_Geschwindigkeit -> Mäßige Geschwindigkeit
    Bilker_Allee -> Bilker Allee
    Einkunft -> Einkünfte
    Hollerstaude -> Hollerstauden
    urban_Landwirtschaft -> Urbane Landwirtschaft
    Vorsitzende -> Vorsitzender
    wohl -> Wohl
    Lehrschwimmbeck -> Lehrschwimmbecken
    Staatsstraße_2308 -> Staatsstraße 2308
    bayeri

    Fachhochschule_für_Finanz -> Fachhochschule für Finanzen
    Farn -> Farne
    zweite_Weltkrieg -> Zweiter Weltkrieg
    Die_Sonne -> Die Sonne
    Sonnenstern -> Sonnensterne
    sofortig_Beschwerde -> Sofortige Beschwerde
    Platzierungsrund -> Platzierungsrunde
    Angewandte_Kunst -> Angewandte Kunst
    Hauptstraße_34 -> Hauptstraße 34
    Haus_für_Kind -> Haus für Kinder
    Guilherand-Grang -> Guilherand-Granges
    Saint_Louis_Art_Museum -> Saint Louis Art Museum
    kosmisch_Staub -> Kosmischer Staub
    Die_Mutter -> Die Mutter
    Altria_Group -> Altria Group
    CIA -> Cia
    Maude_Adam -> Maude Adams
    Joch_Bendel -> Jochen Bendel
    Klaus_Höhne -> Klaus Höhne
    irakisch_Regierung -> Irakische Regierung
    historisch_Tatsache -> Historische Tatsachen
    islamisch_Emirat_Afghanistan -> Islamisches Emirat Afghanistan
    klein_Haus -> Kleines Haus
    Immobilienfond -> Immobilienfonds
    Full_Force -> Full Force
    häuslich_Gewalt -> Häusliche Gewalt
    Das_E

Unnamed: 0_level_0,Unnamed: 1_level_0,label0,label1,label2,label3,label4,label5,label6,label7,label8,label9,label10,label11,label12,label13,label14,label15,label16,label17,label18,label19
dataset,topic_idx,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
OnlineParticipation,1,Öffentliche Hand,Übertragener Wirkungskreis,Aufwendung,Eigener Wirkungskreis,Mitgliedsbeitrag,Öffentliche Verwaltung,Öffentlicher Haushalt,Sozialleistung,Mittelbare Staatsverwaltung,Landeswohlfahrtsverband,Wohnungswesen,Aufgabenträger,Beschäftigter,Vereinigung der kommunalen Arbeitgeberverbände,Behörde,Regionaler Planungsverband,Kommunalabgabengesetz,Verband der Diözesen Deutschlands,Eisenbahnen des Bundes,Ausgleichsabgabe
OnlineParticipation,2,Kommunalpolitik,Bürgerwerkstatt,Mitentscheidung,Bürgerbeteiligung,Stadtteilbüro,Parlamentarische Anfrage,Mandatsträger,Gremium,Übertragener Wirkungskreis,Ausschuss,Vertretungskörperschaft,Bürgerschaft,Frage,Behörde,Bundespolitik,Sozialdemokratische Gemeinschaft für Kommunalp...,Verbandsgemeinderat,Haushaltsvollzug,Landespolitik,Volksvertretung
OnlineParticipation,3,Straßenbrücke,Fußgängerbrücke,Zweispurig,Beschleunigungsstreifen,Bundesstraße 264,Bundesstraße 478,Bundesstraße 482,Nothaltebucht,Kraftfahrstraße,Haltestellenkap,Gegenverkehr,Unterführung,Zubringerstraße,Autobahn,Einspurig,Stadtautobahn,Bundesstraße 426,Radfernweg Thüringer Städtekette,N33,Bundesstraße 277
OnlineParticipation,4,Wetken,Eberhard I. von Berg-Altena,Lechenich,Mainz,Altstadt,Köln,Münster,Kölner Domkapitel,Speyer,Christoph von Baden,Dompropst,Oberbürgermeister,Mülheim,Stadt,Neuss,Krefeld,Düren,Paderborn,Bürgerschaft,Erzbistum Köln
OnlineParticipation,6,Centre-Sud,Der Staat,Stadt,Öffentliche Einrichtung,Erbschlö-Linde,Hücker-Aschen,Öffentliche Bibliothek,Hixter,Mikroregion Entorno de Brasília,Öffentliche Hand,Stadtstaat,Mesoregion Ost-Goiás,Gemeinde,Städtebund,Freie Stadt,Gebietskörperschaft,Freie Hansestadt Bremen,Gemeinwesen,Deutschland,Evangelischer Entwicklungsdienst
OnlineParticipation,7,Freifläche,Naherholungsgebiet,Hardtberghalle,Grünfläche,Gruga,Altstadt,Innenstadt,Baugrundstück,Fritz-Schloß-Park,Revierpark,Weststadt,Grünzug,Alt-Godesberg,Kongresszentrum,Hollerstauden,Dellviertel,Liegenschaftsamt,Volkspark,Sportstätte,Sichtachse
OnlineParticipation,8,Vorkurs,Schule,Seminar für gelehrte Schulen,Sekundarstufe I,Schulklasse,Schulen der Brede,Jugendraum,Betriebserkundung,Sportunterricht,Bildungseinrichtung,Lehrerfortbildung,Franz-Stock-Gymnasium,Unterrichtsfach,Chorklasse,Bildungsgang,Schüleraustausch,Fachlehrer,Schuljahr,Musikschule,Lehrer
OnlineParticipation,11,Immobilie,Wohneigentum,Baugrundstück,Immobilienfonds,Kaltmiete,Mietminderung,Mietgarantie,Bewirtschaftungskosten,Mietausfall,Immobiliengesellschaft,Notargebühr,Mietvertrag,Raumkosten,Vergleichsmiete,Nebenkosten,Miete,Betriebskosten,Wohnungsunternehmen,Grundstück,Leerstand
OnlineParticipation,13,Nationalstraße B4,Freifläche,Fahrweg,Altstadt,Nördliche Neustadt,Route 39,Unterführung,Kernstadt,La Jarrie,Innenstadt,Kleine Straße,Fußgängerbrücke,Statistischer Stadtteil,Route 11,Route 23,Stadtgrenze,Ortslage,Durchlass,Straßenkreuzung,Stadtautobahn
OnlineParticipation,14,Konsequenz,Da,Unsicherheit,Situation,Glatte Kurve,Notwendigkeit,Anstrengung,Frage,Dazu,Emotionale Stabilität,Immer,Veränderung,Trotz,Absolute Galoisgruppe,Einsicht,GAR,Steilheit,Gedanke,Selbst,Logikschaltung
