# Imports & Mounts

In [None]:
from google.colab import drive
drive.mount('/gdrive')


Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).


In [None]:
%%bash
cat > requirements.txt << EOF
# Standardimports
numpy
pandas
xlrd
scipy
matplotlib
seaborn
datetime
IPython
sklearn

# NLP mit Spacy und deutschem Language Model
spacy>=2.2.0,<3.0.0
https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-2.2.5/de_core_news_sm-2.2.5.tar.gz#egg=de_core_news_sm

EOF

pip install -r requirements.txt



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import pickle

import spacy
from spacy.lang.de import German
from spacy import displacy
from spacy.lang.de.stop_words import STOP_WORDS
# nlp = spacy.load('de_core_news_md')
nlp = spacy.load('de_core_news_sm')
# nlp = German()

from sklearn.preprocessing import LabelEncoder
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformer
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.cluster import KMeans

In [None]:
path = '/gdrive/My Drive/data/'
le = LabelEncoder()

gnd = pd.read_csv(path+'10kGNAD_train.csv', header=None, sep=';', quotechar="'", names=['labelEnc', 'text'])
pd.set_option('display.max_colwidth', None)
gnd['label'] = le.fit_transform(gnd.labelEnc)
gnd = gnd.iloc[:,[2,0,1]]
gnd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9245 entries, 0 to 9244
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   label     9245 non-null   int64 
 1   labelEnc  9245 non-null   object
 2   text      9245 non-null   object
dtypes: int64(1), object(2)
memory usage: 216.8+ KB


# Preprocessing Dataset

In [None]:
def textcleaner(string):
    doc = nlp(string)
    string_clean = [w.lemma_ for w in doc if (not w.is_stop and not w.is_punct and not w.like_num)]
    return string_clean

In [None]:
gnd["text120"] = (gnd.text.str.split().str[:120]).apply(", ".join)
gnd["prepro"] = gnd.text.apply(textcleaner).apply(", ".join)
gnd.head()

Unnamed: 0,label,labelEnc,text,text120,prepro
0,5,Sport,"21-Jähriger fällt wohl bis Saisonende aus. Wien – Rapid muss wohl bis Saisonende auf Offensivspieler Thomas Murg verzichten. Der im Winter aus Ried gekommene 21-Jährige erlitt beim 0:4-Heimdebakel gegen Admira Wacker Mödling am Samstag einen Teilriss des Innenbandes im linken Knie, wie eine Magnetresonanz-Untersuchung am Donnerstag ergab. Murg erhielt eine Schiene, muss aber nicht operiert werden. Dennoch steht ihm eine mehrwöchige Pause bevor.","21-Jähriger, fällt, wohl, bis, Saisonende, aus., Wien, –, Rapid, muss, wohl, bis, Saisonende, auf, Offensivspieler, Thomas, Murg, verzichten., Der, im, Winter, aus, Ried, gekommene, 21-Jährige, erlitt, beim, 0:4-Heimdebakel, gegen, Admira, Wacker, Mödling, am, Samstag, einen, Teilriss, des, Innenbandes, im, linken, Knie,, wie, eine, Magnetresonanz-Untersuchung, am, Donnerstag, ergab., Murg, erhielt, eine, Schiene,, muss, aber, nicht, operiert, werden., Dennoch, steht, ihm, eine, mehrwöchige, Pause, bevor.","21-Jähriger, fällen, Saisonende, Wien, Rapid, Saisonende, Offensivspieler, Thoma, Murg, verzichten, Winter, Ried, gekommen, 21-Jährige, erleiden, 0:4-Heimdebakel, Admira, Wacker, Mödling, Samstag, Teilriss, Innenbandes, link, Knie, Magnetresonanz-Untersuchung, Donnerstag, ergeben, Murg, erhalten, Schiene, operieren, Dennoch, stehen, mehrwöchige, Pause, bevor"
1,3,Kultur,"Erfundene Bilder zu Filmen, die als verloren gelten: ""The Forbidden Room"" von Guy Maddin und Evan Johnson ist ein surrealer Ritt durch die magischen Labyrinthe des frühen Kinos. Wien – Die Filmgeschichte ist ein Friedhof der Verlorenen. Unter den Begrabenen finden sich zahllose Filme, von denen nur noch mysteriös oder abenteuerlich klingende Namen kursieren; und solche, über die verstreut herumliegendes Sekundärmaterial Aufschluss erlaubt. Einer davon ist The Forbidden Room, ein Two-Reeler von 1913/14, den der arbeitswütige US-Regisseur Allan Dwan u. a. mit dem Horrordarsteller Lon Chaney gedreht hat. Ein passender Titel für einen Film, der als verschollen gilt. Verbote sind Einladungen zur Überschreitung. Einen ähnlichen Gedanken hatte wohl auch der kanadische Experimentalfilmemacher Guy Maddin, als er seinem Film von 2015 den gleichen Titel gab. Gemeinsam mit seinem Koregisseur Evan Johnson hat er vergessene, verschwundene Arbeiten der Film geschichte zum Ausgangspunkt einer Neuerfindung erkoren. Um historische Genauigkeit geht es ihnen dabei freilich nicht, erlaubt ist vielmehr alles, was die Fantasie so ausspuckt. Arg angespannte Szenen in einem U-Boot, dessen Besatzung tief im Ozean mit einer Art explosivem Gelee umhertaucht und Sauerstoff mit Pfannkuchen generiert. Oder die Erinnerungen eines Schnurrbarts, der sich auf die Oberlippe des Sohnes eines Toten heftet, um derart der Witwe Trost zu spenden. Letzteres die frei erfundene Handlung eines Mikio-Naruse-Films mit dem Titel The Strength of a Moustache. Immer neue Volten schlägt die Handlung, verläuft dabei kaum jemals linear, sondern gibt sich sprunghaft, surreal dem Unerwarteten hin, irgendwo zwischen Jules Verne, Jacques Tourneur, F. W. Murnau und dem von Maddin verehrten Modernisten Raymond Roussel. Der britische Guardian beschrieb das Ergebnis so: als würde man unter der Einwirkung von LSD durch ein Filmarchiv wandeln. Das Rausch- oder zumindest Traumähnliche teilt diese Arbeit Maddins mit seinen früheren, die kürzer dimensioniert waren. The Forbidden Room ist durch seine Dauer von mehr als zwei Stunden schon nahe an der Überdosis, soll heißen: Die Überforderung ist Programm. Maddin und Johnson geben sich mit keinen Häppchen zufrieden, sondern wollen ein immersives Seherlebnis ermöglichen, in einem mehr an Filmpionier Georges Méliès orientierten Sinne. Sie nehmen die fantastische Qualität des Kinos als seine eigentliche Realität wahr – eine wild Bilder pumpende, an unsere Psyche gekoppelte (und daher auch manchmal humorvoll kindliche) Maschine, wie sie schon in Maddins Kurzfilm The Heart of the World (2000) zur Geltung kam. Wer nach einem Zusammenhang sucht, findet ihn im Bekenntnis zur Abschweifung. Die Verbindung von einem Waldarbeiter (Roy Dupuis), der der Spur einer verschwundenen Frau folgt, zu einem (von Udo Kier verkörperten) Arzt mit einem Fetisch für Gesäße oder zu jenem seltsamen Reklamemenschen, der dem Zuschauer erklärt, wie man das perfekte Bad nimmt – sie liegt allenfalls in der Oberfläche, jener digital in der Postproduktion hergestellten Ästhetik des frühen Kinos, die The Forbidden Room wie ein Gespenst des analogen Zeitalters wachruft. Künstlich verwittert Die Farben der Laufbilder, die auf das eingeschränkte Zwei-Farben-Technicolor-Verfahren verweisen, sind künstlich heruntergestuft, als wäre das Filmmaterial der Verwitterung ausgesetzt gewesen; manche Doppelbelichtungen wirken so, als wären die Mate rialien ineinandergeschmolzen. Auch mit Zwischentiteln und dem weitgehenden Verzicht auf herkömmliche Dialoge schließen Maddin und Evan an den Stummfilm an, dessen stilistische Bandbreite sie in der Montage und szenischen Regie spielerisch betonen und ausagieren. Die Amnesie, heißt es in diesem visuell betörenden Film einmal, befällt jene Menschen, zu denen die Figuren aus der Ferne zurückkehren. Der Gedanke lässt sich auch auf die Bilder des Films anwenden: Er enthält die Fragmente eines Kinos, an das wir uns nicht mehr erinnern können, weil wir es für verloren hielten.","Erfundene, Bilder, zu, Filmen,, die, als, verloren, gelten:, ""The, Forbidden, Room"", von, Guy, Maddin, und, Evan, Johnson, ist, ein, surrealer, Ritt, durch, die, magischen, Labyrinthe, des, frühen, Kinos., Wien, –, Die, Filmgeschichte, ist, ein, Friedhof, der, Verlorenen., Unter, den, Begrabenen, finden, sich, zahllose, Filme,, von, denen, nur, noch, mysteriös, oder, abenteuerlich, klingende, Namen, kursieren;, und, solche,, über, die, verstreut, herumliegendes, Sekundärmaterial, Aufschluss, erlaubt., Einer, davon, ist, The, Forbidden, Room,, ein, Two-Reeler, von, 1913/14,, den, der, arbeitswütige, US-Regisseur, Allan, Dwan, u., a., mit, dem, Horrordarsteller, Lon, Chaney, gedreht, hat., Ein, passender, Titel, für, einen, Film,, der, als, verschollen, gilt., Verbote, sind, Einladungen, zur, Überschreitung., Einen, ähnlichen, Gedanken, hatte, wohl, auch, der, kanadische, Experimentalfilmemacher, Guy, Maddin,, als, er, seinem, Film, von, 2015","Erfundene, Bild, Film, verlieren, gelten, The, Forbidden, Room, Guy, Maddin, Evan, Johnson, surrealer, Ritt, magisch, Labyrinth, früh, Kino, Wien, Filmgeschichte, Friedhof, Verlorene, Begrabene, finden, zahllos, Film, mysteriös, abenteuerlich, klingend, Name, kursieren, verstreuen, herumliegend, Sekundärmaterial, Aufschluss, erlauben, The, Forbidden, Room, Two-Reeler, arbeitswütige, US-Regisseur, Allan, Dwan, u., a., Horrordarsteller, Lon, Chaney, drehen, passend, Titel, Film, verschollen, gelten, Verbot, Einladung, Überschreitung, ähnlich, Gedanke, kanadische, Experimentalfilmemacher, Guy, Maddin, Film, gleich, Titel, Gemeinsam, Koregisseur, Evan, Johnson, vergessen, verschwunden, Arbeit, Film, geschichte, Ausgangspunkt, Neuerfindung, erkiesen, historische, Genauigkeit, freilich, erlauben, vielmehr, Fantasie, ausspucken, Arg, angespannt, Szene, U-Boot, Besatzung, tief, Ozean, Art, explosiv, Gelee, umhertaucht, Sauerstoff, Pfannkuchen, generieren, Erinnerung, Schnurrbart, Oberlippe, Sohnes, Tote, heften, derart, Witwe, Trost, spenden, Letzteres, frei, erfunden, Handlung, Mikio-Naruse-Films, Titel, The, Strength, of, Moustache, Volten, schlagen, Handlung, verlaufen, jemals, linear, sprunghaft, surreal, Unerwartete, irgendwo, Jules, Verne, Jacques, Tourneur, F., W., Murnau, Maddin, verehren, Modernisten, Raymond, Roussel, britische, Guardian, beschreiben, Ergebnis, Einwirkung, LSD, Filmarchiv, wandeln, Rausch-, zumindest, Traumähnliche, teilen, Arbeit, Maddins, früh, kurz, dimensionieren, The, Forbidden, Room, Dauer, Stunde, nahe, Überdosis, heiß, Überforderung, Programm, Maddin, Johnson, geben, Häppchen, zufrieden, immersives, Seherlebnis, ermöglichen, Filmpionier, George, Méliès, orientieren, Sinn, nehmen, fantastische, Qualität, Kino, eigentlich, Realität, wild, Bild, pumpend, Psyche, gekoppelt, manchmal, humorvoll, kindlich, Maschine, Maddins, Kurzfilm, The, Heart, of, the, World, Geltung, Zusammenhang, suchen, finden, Bekenntnis, Abschweifung, Verbindung, Waldarbeiter, Roy, Dupuis, Spur, verschwunden, Frau, folgen, Udo, Kier, verkörpern, Arzt, Fetisch, Gesäße, seltsam, Reklamemenschen, Zuschauer, erklären, perfekte, Bad, nehmen, liegen, allenfalls, Oberfläche, digital, Postproduktion, hergestellt, Ästhetik, früh, Kino, The, Forbidden, Room, Gespenst, analog, Zeitalters, wachrufen, Künstlich, verwittert, Farbe, Laufbilder, eingeschränkt, Zwei-Farben-Technicolor-Verfahren, verweisen, künstlich, heruntergestuft, Filmmaterial, Verwitterung, aussetzen, Doppelbelichtungen, wirken, sein, Mate, rialien, ineinandergeschmolzen, Zwischentiteln, weitgehenden, Verzicht, herkömmlich, Dialog, schließen, Maddin, Evan, Stummfilm, stilistische, Bandbreite, Montag, szenisch, Regie, spielerisch, betonen, ausagieren, Amnesie, visuell, betörend, Film, befallen, Mensch, Figur, Ferne, zurückkehren, Gedanke, lässt, Bild, Film, anwenden, enthalten, Fragment, Kino, erinnern, verlieren, halten"
2,6,Web,"Der frischgekürte CEO Sundar Pichai setzt auf ein umgänglicheres Führungsteam. Die Atmosphäre im Silicon Valley ist rau. Da werden massenhaft Mitarbeiter der direkten Konkurrenz abgeworben, Löhne mit firmenübergreifenden Mauscheleien niedrig gehalten und Untergebene wegen leicht verfehlter Ziele vor die Tür gesetzt. Auch in der höchsten Firmenebene werden brutale Umgangsformen gepflegt: Die Wutausbrüche von Apple-Mitgründer Steve Jobs sind legendär, sein früherer Geschäftspartner Steve Wozniak hätte ihn zu Lebzeiten gerne als Arschloch beschimpft, traute sich aber nicht. Auch Google-Mitgründer Larry Page gilt als Choleriker, für den ein humaner Umgang mit Mitarbeitern nicht an erster Stelle steht. Doch die Zeiten des harten Management-Stils sind bei Google vorbei. Das belegen zahlreiche ehemalige Mitarbeiter und Geschäftspartner. Wie ein Ex-Manager gegenüber re:code pointiert verlautbart: Alle Arschlöcher sind jetzt weg. Verantwortlich dafür zeichnet sich Sundar Pichai, der nach Googles großer Umstrukturierung (Gründung des Dachunternehmens Alphabet) zum CEO des Suchmaschinisten wurde. In den wenigen Monaten als Google-Chef hat Pichai nun bereits einige Umstrukturierungen vorgenommen – und erhält dafür viel Lob aus der Branche. So wurde beispielsweise Hiroshi Lockheimer zum Android-Chef gemacht. Ehemalige Kollegen, etwa Motorola-Präsident Rick Osterloh, schwärmen von ihm als großartigen Typen, den man sehr gern hat. So soll Lockheimer dafür gesorgt haben, dass alle Smartphone-Hersteller, die auf Android setzen, gleichberechtigten Zugang zu Entwicklungen des Betriebssystems haben – auch, als Motorola noch zu Google gehörte. Ein anderes Beispiel ist Philipp Schindler, der Googles Werbegeschäft leiten soll. Medienpartner beschreiben ihn als kompromissbereit und umgänglich. Gelernt hat Schindler das in Europa, wo er Google jahrelang gegen Monopol-Vorwürfe aus Regierungskreisen verteidigen musste. Älterer Semester im Google-Umfeld befürchten laut re:code allerdings, dass ein softes Google wichtige Scharmützel verlieren wird. Doch die Zeit der ausgefahrenen Ellbogen ist vorerst vorbei.","Der, frischgekürte, CEO, Sundar, Pichai, setzt, auf, ein, umgänglicheres, Führungsteam., Die, Atmosphäre, im, Silicon, Valley, ist, rau., Da, werden, massenhaft, Mitarbeiter, der, direkten, Konkurrenz, abgeworben,, Löhne, mit, firmenübergreifenden, Mauscheleien, niedrig, gehalten, und, Untergebene, wegen, leicht, verfehlter, Ziele, vor, die, Tür, gesetzt., Auch, in, der, höchsten, Firmenebene, werden, brutale, Umgangsformen, gepflegt:, Die, Wutausbrüche, von, Apple-Mitgründer, Steve, Jobs, sind, legendär,, sein, früherer, Geschäftspartner, Steve, Wozniak, hätte, ihn, zu, Lebzeiten, gerne, als, Arschloch, beschimpft,, traute, sich, aber, nicht., Auch, Google-Mitgründer, Larry, Page, gilt, als, Choleriker,, für, den, ein, humaner, Umgang, mit, Mitarbeitern, nicht, an, erster, Stelle, steht., Doch, die, Zeiten, des, harten, Management-Stils, sind, bei, Google, vorbei., Das, belegen, zahlreiche, ehemalige, Mitarbeiter, und, Geschäftspartner., Wie, ein, Ex-Manager, gegenüber, re:code, pointiert, verlautbart:, Alle, Arschlöcher","frischgekürte, CEO, Sundar, Pichai, setzen, umgänglich, Führungsteam, Atmosphäre, Silicon, Valley, rau, massenhaft, Mitarbeiter, direkt, Konkurrenz, abwerben, Löhne, firmenübergreifenden, Mauscheleien, niedrig, halten, Untergebener, verfehlt, Ziel, Tür, setzen, hoch, Firmenebene, brutale, Umgangsformen, pflegen, Wutausbrüche, Apple-Mitgründer, Steve, Job, legendär, früh, Geschäftspartner, Steve, Wozniak, Lebzeiten, gerne, Arschloch, beschimpfen, trauen, Google-Mitgründer, Larry, Page, gelten, Choleriker, human, Umgang, Mitarbeiter, Stelle, stehen, Zeit, harten, Management-Stils, Google, vorbei, belegen, zahlreiche, ehemalig, Mitarbeiter, Geschäftspartner, Ex-Manager, re, code, pointiert, verlautbart, Arschlöcher, weg, Verantwortlich, zeichnen, Sundar, Pichai, Googles, Umstrukturierung, Gründung, Dachunternehmens, Alphabet, CEO, Suchmaschinisten, wenig, Monat, Google-Chef, Pichai, Umstrukturierung, vornehmen, erhalten, Lob, Branche, beispielsweise, Hiroshi, Lockheimer, Android-Chef, Ehemalige, Kollege, Motorola-Präsident, Rick, Osterloh, schwärmen, großartig, Typus, Lockheimer, sorgen, Smartphone-Hersteller, Android, setzen, gleichberechtigt, Zugang, Entwicklung, Betriebssystems, Motorola, Google, gehören, ander, Philipp, Schindler, Googles, Werbegeschäft, leiten, Medienpartner, beschreiben, kompromissbereit, umgänglich, Gelernt, Schindler, Europa, Google, jahrelang, Monopol-Vorwürfe, Regierungskreisen, verteidigen, Älterer, Semester, Google-Umfeld, befürchten, laut, re, code, softes, Google, wichtig, Scharmützel, verlieren, ausgefahren, Ellbogen, vorerst, vorbei"
3,7,Wirtschaft,"Putin: ""Einigung, dass wir Menge auf Niveau von Jänner halten"". Moskau – Die russischen Ölproduzenten wollen nach den Worten von Präsident Wladimir Putin ihre Förderung in diesem Jahr einfrieren. Im Großen und Ganzen wurde eine Einigung erzielt, dass wir die Ölproduktion auf dem Niveau von Jänner halten werden, sagte Putin am Mittwoch in Moskau. Russland leidet wie andere Förderstaaten unter dem drastischen Einbruch der Ölpreise. Putin will die Preise durch eine begrenzte Förderung im In- und Ausland stabilisieren. Dazu hatte Russland jüngst mit Saudi-Arabien und anderen großen Förderländern über ein Einfrieren der Produktion auf dem Jänner-Niveau beraten.","Putin:, ""Einigung,, dass, wir, Menge, auf, Niveau, von, Jänner, halten""., Moskau, –, Die, russischen, Ölproduzenten, wollen, nach, den, Worten, von, Präsident, Wladimir, Putin, ihre, Förderung, in, diesem, Jahr, einfrieren., Im, Großen, und, Ganzen, wurde, eine, Einigung, erzielt,, dass, wir, die, Ölproduktion, auf, dem, Niveau, von, Jänner, halten, werden,, sagte, Putin, am, Mittwoch, in, Moskau., Russland, leidet, wie, andere, Förderstaaten, unter, dem, drastischen, Einbruch, der, Ölpreise., Putin, will, die, Preise, durch, eine, begrenzte, Förderung, im, In-, und, Ausland, stabilisieren., Dazu, hatte, Russland, jüngst, mit, Saudi-Arabien, und, anderen, großen, Förderländern, über, ein, Einfrieren, der, Produktion, auf, dem, Jänner-Niveau, beraten.","Putin, Einigung, Menge, Niveau, Jänner, halten, Moskau, russisch, Ölproduzenten, Worten, Präsident, Wladimir, Putin, Förderung, einfrieren, Einigung, erzielen, Ölproduktion, Niveau, Jänner, halten, Putin, Mittwoch, Moskau, Russland, leiden, Förderstaaten, drastisch, Einbruch, Ölpreise, Putin, Preis, begrenzen, Förderung, In-, Ausland, stabilisieren, Russland, jüngst, Saudi-Arabien, Förderländern, Einfrieren, Produktion, Jänner-Niveau, beraten"
4,1,Inland,"Estland sieht den künftigen österreichischen Präsidenten auch als estnischen Staatsbürger. Wien/Tallinn/Pskow – Die Eltern des künftigen Bundespräsidenten waren 1941 aus dem von Sowjets besetzten Estland in das damalige Deutsche Reich geflohen, wo 1944 in Wien Sascha Van der Bellen zur Welt kam. Estnische Verwandte jubelten am Dienstag über dessen Wahlsieg, Freude herrscht auch unter Politikern des Landes. Interesse an Van der Bellen gibt es auch in der russischen Stadt Pskow, der Geburtsstadt seiner Eltern. Wir haben von ganzem Herzen und mit der ganzen Familie mitgefiebert, sagt Irina Steinberg, eine Cousine des künftigen Präsidenten. Der Sonntag sei für sie deshalb ein großer Stress gewesen, erzählt Steinberg im Telefonat mit der APA. Sein Sieg zeugt davon, dass die österreichische Intelligenzija, die denkenden Menschen, für Sascha gestimmt haben, so die studierte Philologin, die in einem Dorf im Süden Estlands lebt. Freudig wird der Wahlsieg des ehemaligen Grünen-Chefs auch von estnischen Politikern kommentiert. Die Wahl eines Präsidenten mit estnischen Wurzeln schafft günstige Bedingungen für eine engere Zusammenarbeit zwischen Estland und Österreich, erklärt der Vorsitzende des außenpolitischen Ausschusses im estnischen Parlament, Sven Mikser. Da Estland aber auch den Aufschwung europaskeptischer Kräfte mit Sorge beobachte, sei er froh, dass sich die Österreicher für Van der Bellen entscheiden haben, sagt der Vertreter der Sozialdemokratischen Partei Estlands gegenüber der APA. Das Wahlergebnis ist ein guter Grund, den Österreichern gleich doppelt zu gratulieren, betont der ehemalige Außenminister und nunmehrige liberale Europaparlamentsabgeordnete Urmas Paet. Van der Bellen sei für die jetzige Zeit eine sehr vernünftige Wahl, sie sei gut für Europa und Österreich, sagt Paet im Gespräch mit der APA. Für Estland und das estnische Volk spielt aber auch die Tatsache eine Rolle, dass Österreich einen estnischen Staatsbürger zum Präsidenten gewählt hat. Nach Auskunft des estnischen Außenministeriums gelten Kinder von Bewohnern des 1940 zerstörten unabhängigen Estland, die vor dem 16. Juni 1940 über die estnische Staatsbürgerschaft verfügten, automatisch als Staatsbürger des nunmehrigen Estland. Der APA vorliegende Dokumente des estnischen Staatsarchivs und des deutschen Bundesarchivs belegen, dass Alma und Alexander Van der Bellen senior, die Eltern des künftigen Präsidenten, damals im Besitz der estnischen Staatsbürgerschaft waren. Interesse am künftigen Präsidenten zeigt aber auch Pskow, das im Westen Russland an der heutigen estnischen Grenze liegt. Die ursprünglich aus Holland stammende Familie war hier im 19. Jahrhundert in den russischen Adelstand erhoben worden, insbesondere der ebenso gleichnamige Großvater von Alexander Van der Bellen hatte vor der Oktoberrevolution des Jahres 1917 eine tragende politische Funktion in der Region gespielt. Nach der bürgerlichen Februarrevolution von 1917 war dieser Vertreter eines russischen Liberalismus zum Kommissar der Übergangsregierung für das Gouvernement Pskow und somit zum lokalen Regierungschef ernannt worden. In einigen Lokalmedien finden sich Schlagzeilen, in denen vom Sieg des Nachfahren eines Aristokraten aus Pskow oder des Enkels des Pskower Gouverneurs die Rede ist, berichtet der Direktor des Archivs der Region Pskow, Waleri Kusmin. In diesem Archiv finden sich zahlreiche Akten zur Familie Van der Bellen, insbesondere zur politischen Tätigkeit der Vorfahren. Kusmin geht im Gespräch mit der APA davon aus, dass in der nächsten Zeit auch einige wissenschaftliche Publikationen über die Van der Bellens in Pskow erscheinen werden. Die Geschichte dieser Kleinaristokraten in Pskow ging nach der Machtübernahme der Bolschewiken zu Ende: 1919 floh die Familie, darunter die Großeltern und der Vater des künftigen Präsidenten, nach Estland. Als die Sowjets 1940 Estland eroberten, floh man erneut Richtung Westen. Van der Bellens Vater hatte zu diesem Zeitpunkt aufgrund seiner Herkunft und insbesondere als international tätiger Banker Repressionen des sowjetischen Geheimdiensts NKWD zu befürchten. Die Flucht ging zunächst nach Wien und Ende 1944, Anfang 1945 und somit rechtzeitig vor dem Eintreffen der Rote Armee in Ostösterreich weiter nach Tirol, wo Van der Bellen senior eine Existenz im Außenhandel aufbauen konnte und zudem ein künftiger Präsident heranwachsen sollte.","Estland, sieht, den, künftigen, österreichischen, Präsidenten, auch, als, estnischen, Staatsbürger., Wien/Tallinn/Pskow, –, Die, Eltern, des, künftigen, Bundespräsidenten, waren, 1941, aus, dem, von, Sowjets, besetzten, Estland, in, das, damalige, Deutsche, Reich, geflohen,, wo, 1944, in, Wien, Sascha, Van, der, Bellen, zur, Welt, kam., Estnische, Verwandte, jubelten, am, Dienstag, über, dessen, Wahlsieg,, Freude, herrscht, auch, unter, Politikern, des, Landes., Interesse, an, Van, der, Bellen, gibt, es, auch, in, der, russischen, Stadt, Pskow,, der, Geburtsstadt, seiner, Eltern., Wir, haben, von, ganzem, Herzen, und, mit, der, ganzen, Familie, mitgefiebert,, sagt, Irina, Steinberg,, eine, Cousine, des, künftigen, Präsidenten., Der, Sonntag, sei, für, sie, deshalb, ein, großer, Stress, gewesen,, erzählt, Steinberg, im, Telefonat, mit, der, APA., Sein, Sieg, zeugt, davon,, dass, die, österreichische, Intelligenzija,, die, denkenden","Estland, sehen, künftig, österreichisch, Präsident, estnischen, Staatsbürger, Wien/Tallinn/Pskow, Eltern, künftig, Bundespräsidenten, Sowjet, besetzen, Estland, damalige, deutschen, Reich, fliehen, Wien, Sascha, Van, Bellen, Welt, Estnische, verwenden, jubeln, Dienstag, Wahlsieg, Freude, herrschen, Politiker, Land, Interesse, Van, Bellen, russisch, Stadt, Pskow, Geburtsstadt, Eltern, ganz, Herz, Familie, mitgefiebert, Irina, Steinberg, Cousine, künftig, Präsident, Sonntag, Stress, erzählen, Steinberg, Telefonat, APA, Sieg, zeugen, österreichisch, Intelligenzija, denkend, Mensch, Sascha, stimmen, studieren, Philologin, Dorf, Süden, Estland, leben, Freudig, Wahlsieg, ehemalig, Grünen-Chefs, estnischen, Politiker, kommentieren, Wahl, Präsident, estnischen, Wurzel, schaffen, günstige, Bedingung, eng, Zusammenarbeit, Estland, Österreich, erklären, Vorsitzende, außenpolitisch, Ausschuß, estnischen, Parlament, Sven, Mikser, Estland, Aufschwung, europaskeptischer, Kraft, Sorge, beobachten, froh, Österreicher, Van, Bellen, entscheiden, Vertreter, Sozialdemokratische, Partei, Estland, APA, Wahlergebnis, Grund, Österreicher, doppeln, gratulieren, betonen, ehemalig, Außenminister, nunmehrige, liberale, Europaparlamentsabgeordnete, Urmas, Paet, Van, Bellen, jetzige, vernünftig, Wahl, Europa, Österreich, Paet, Gespräch, APA, Estland, estnische, Volk, spielen, Tatsache, Rolle, Österreich, estnischen, Staatsbürger, Präsident, wählen, Auskunft, estnischen, Außenministerium, gelten, Kind, Bewohner, zerstören, unabhängig, Estland, Juni, estnische, Staatsbürgerschaft, verfügt, automatisch, Staatsbürger, nunmehrigen, Estland, APA, vorliegend, Dokument, estnischen, Staatsarchivs, deutsch, Bundesarchivs, belegen, Alma, Alexander, Van, Bellen, senior, Eltern, künftig, Präsident, Besitz, estnischen, Staatsbürgerschaft, Interesse, künftig, Präsident, zeigen, Pskow, Westen, Russland, heutig, estnischen, Grenze, liegen, ursprünglich, Holland, stammend, Familie, Jahrhundert, russisch, Adelstand, erheben, insbesondere, gleichnamig, Großvater, Alexander, Van, Bellen, Oktoberrevolution, Jahr, tragend, politische, Funktion, Region, spielen, bürgerlich, Februarrevolution, Vertreter, russisch, Liberalismus, Kommissar, Übergangsregierung, Gouvernement, Pskow, somit, lokal, Regierungschef, ernennen, Lokalmedien, finden, Schlagzeile, Sieg, Nachfahr, Aristokrat, Pskow, Enkel, Pskower, Gouverneur, Rede, berichten, Direktor, Archiv, Region, Pskow, Waleri, Kusmin, Archiv, finden, zahlreiche, Akte, Familie, Van, Bellen, insbesondere, politisch, Tätigkeit, Vorfahr, Kusmin, Gespräch, APA, nächst, wissenschaftliche, Publikation, Van, Bellen, Pskow, erscheinen, Geschichte, Kleinaristokraten, Pskow, Machtübernahme, Bolschewiken, fliehen, Familie, Großeltern, Vater, künftig, Präsident, Estland, Sowjet, Estland, erobern, fliehen, erneut, Richtung, Westen, Van, Bellen, Vater, Zeitpunkt, aufgrund, Herkunft, insbesondere, international, tätig, Banker, Repression, sowjetisch, Geheimdienst, NKWD, befürchten, Flucht, Wien, Anfang, somit, rechtzeitig, Eintreffen, rot, Armee, Ostösterreich, Tirol, Van, Bellen, senior, Existenz, Außenhandel, aufbauen, zudem, künftig, Präsident, heranwachsen"


In [None]:
def SavePickle(name, object):
    save_df = open(str(name)+'.pickle','wb')
    pickle.dump(object,save_df)
    save_df.close()

path = '/gdrive/My Drive/data/'
SavePickle(path+'10kGNAD_preprocessed', gnd)

# Preprocessed 10kGND einlesen (pickle-Objekt)

In [None]:
path = '/gdrive/My Drive/data/'
os.listdir(path)

['TIMEGenderData.csv',
 'times_magazin.csv',
 'noten.csv',
 '10kGNAD_train.csv',
 '10kGNAD_preprocessed.pickle']

In [3]:
FILE = '10kGNAD_preprocessed'
# open_df = open(path+FILE+'.pickle','rb')
open_df = open(FILE+'.pickle','rb')
gnd = pickle.load(open_df)
open_df.close()


le = LabelEncoder()
gnd.label = le.fit_transform(gnd.labelEnc)
gnd.info()
print("Preprocessed Datenset 10k German News in Dataframe gnd geladen")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9245 entries, 0 to 9244
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   label     9245 non-null   int32 
 1   labelEnc  9245 non-null   object
 2   text      9245 non-null   object
 3   text120   9245 non-null   object
 4   prepro    9245 non-null   object
dtypes: int32(1), object(4)
memory usage: 325.1+ KB
Preprocessed Datenset 10k German News in Dataframe gnd geladen


# SVC Classification auf voll gelabeltem Datenset

In [None]:
txt = "text"  # Alternative Methodik mit "prepro" := legt fest, ob auf Rawtext (text) oder Prepro-Text (prepro) trainiert wird

X_train, X_test, y_train, y_test = train_test_split(gnd[txt], gnd["label"], test_size=.3, stratify=gnd.label)
print(X_train.shape, X_test.shape)


(6471,) (2774,)


In [None]:
# classifier pipeline mit Support Vektor Machine als Classifier definieren
lsvc_classifier = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('clf', LinearSVC(dual=False, C=1.6, class_weight="balanced")),
])

# classifier mit vorgeschalteter Pipeline trainieren:
lsvc_classifier.fit(X_train, y_train)  # train the classifier

# trainierten classifier auf die Testdaten anwenden, um den Accuracy Score zu ermitteln:
predicted = lsvc_classifier.predict(X_test)  # predict the test set 

score_report = classification_report(predicted, y_test, target_names=le.classes_.tolist(), output_dict=True)
scores_SVC_FullData = pd.DataFrame(score_report).transpose()
scores_SVC_FullData

Unnamed: 0,precision,recall,f1-score,support
Etat,0.772222,0.902597,0.832335,154.0
Inland,0.755474,0.784091,0.769517,264.0
International,0.872549,0.896725,0.884472,397.0
Kultur,0.917808,0.8375,0.875817,160.0
Panorama,0.845475,0.804622,0.824543,476.0
Sport,0.959877,0.984177,0.971875,316.0
Web,0.887417,0.885463,0.886439,454.0
Wirtschaft,0.850394,0.778846,0.813049,416.0
Wissenschaft,0.812903,0.919708,0.863014,137.0
accuracy,0.858688,0.858688,0.858688,0.858688


# Active Labeling mit 50 Trainingsdaten auf Basis k-Means (k=50)

In [None]:
k = 100

km = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('kmeans', KMeans(n_clusters = k, n_jobs=-1,  )),
])


X_digits_dist = km.fit_transform(X_train) # X_digits_dist: Distanz jedes Datensatzes zu den 50 Centroids: Shape: n / k

# Repräsentative Datenpunkte (sind am nähesten zum Centroid des jeweiligen k-Clusters)
representative_digit_idx = np.argmin(X_digits_dist, axis=0)
X_representative_digits = X_train.iloc[representative_digit_idx]
y_representative_digits = y_train.iloc[representative_digit_idx]

print(X_representative_digits.shape, y_representative_digits.shape)


(100,) (100,)


In [None]:
# classifier pipeline mit Support Vektor Machine als Classifier definieren
lsvc_classifier = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('clf', LinearSVC(dual=False, C=1.6, class_weight="balanced")),
])

# classifier mit vorgeschalteter Pipeline trainieren:
lsvc_classifier.fit(X_representative_digits, y_representative_digits)  

# trainierten classifier auf die Testdaten anwenden, um den Accuracy Score zu ermitteln:
predicted = lsvc_classifier.predict(X_test)  

score_report = classification_report(predicted, y_test, target_names=le.classes_.tolist(), output_dict=True)
scores_SVC_50Labels = pd.DataFrame(score_report).transpose()
scores_SVC_50Labels


  _warn_prf(average, modifier, msg_start, len(result))


Unnamed: 0,precision,recall,f1-score,support
Etat,0.133333,1.0,0.235294,24.0
Inland,0.69708,0.434091,0.535014,440.0
International,0.779412,0.637275,0.701213,499.0
Kultur,0.0,0.0,0.0,0.0
Panorama,0.785872,0.489011,0.602879,728.0
Sport,0.904321,0.794038,0.845599,369.0
Web,0.766004,0.755991,0.760965,459.0
Wirtschaft,0.433071,0.647059,0.518868,255.0
Wissenschaft,0.0,0.0,0.0,0.0
accuracy,0.610671,0.610671,0.610671,0.610671


# Active Labeling mit propagierten Labels
Basis: 50 gelabelte Ausgangsdatenpunkte und k-Means mit k = 50

Labels propagieren:

In [None]:
y_train_propagated = np.empty(len(X_train), dtype=np.int32)  # arbitrary filler data

for idx, lbl in enumerate(y_representative_digits):          # ruft für jeden der 50 Cluster das entsprechende repräsentative Label auf
    y_train_propagated[km["kmeans"].labels_==idx] = lbl      # Leerer Vektor wird mit dem jeweils repräsentativen Labelwert befüllt (lbl)
    # print(y_train_propagated[km["kmeans"].labels_==idx])

print("Umfang propagiertes Labelset: ", y_train_propagated.shape, "\n")
pd.Series(y_train_propagated).value_counts(normalize=True)  # 

Umfang propagiertes Labelset:  (6471,) 



4    0.193788
0    0.152218
1    0.146809
6    0.145263
2    0.132437
7    0.128728
5    0.097976
8    0.002782
dtype: float64

Gesamtes Datenset X_train auf die propagierten Labels fitten (y_train_propagated).
Dann auf Testdatenset anwenden

In [None]:
# classifier pipeline mit Support Vektor Machine als Classifier definieren
lsvc_classifier = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('clf', LinearSVC(dual=False, C=1.6, class_weight="balanced")),
])

# classifier mit vorgeschalteter Pipeline trainieren:
lsvc_classifier.fit(X_train, y_train_propagated)  

# trainierten classifier auf die Testdaten anwenden, um den Accuracy Score zu ermitteln:
predicted = lsvc_classifier.predict(X_test)  

score_report = classification_report(predicted, y_test, target_names=le.classes_.tolist(), output_dict=True)
scores_SVC_AllProp50Labels = pd.DataFrame(score_report).transpose()
scores_SVC_AllProp50Labels


  _warn_prf(average, modifier, msg_start, len(result))


Unnamed: 0,precision,recall,f1-score,support
Etat,0.666667,0.27907,0.393443,430.0
Inland,0.671533,0.438095,0.530259,420.0
International,0.708333,0.809524,0.755556,357.0
Kultur,0.0,0.0,0.0,0.0
Panorama,0.724062,0.631985,0.674897,519.0
Sport,0.882716,0.993056,0.934641,288.0
Web,0.810155,0.851508,0.830317,431.0
Wirtschaft,0.509186,0.593272,0.548023,327.0
Wissenschaft,0.012903,1.0,0.025478,2.0
accuracy,0.638068,0.638068,0.638068,0.638068


# Active Labeling  mit 20% der zentralsten Datenpunkte
Basis: Nur die 20% nähestgelegenen Datenpunkte zum Centroid werden mit dem Label des nähesgelegenen Datenpunktes gelabelt

In [None]:
percentile_closest = 20

X_cluster_dist = X_digits_dist[np.arange(len(X_train)), km["kmeans"].labels_]
for i in range(k):
    in_cluster = (km["kmeans"].labels_ == i)
    cluster_dist = X_cluster_dist[in_cluster]
    cutoff_distance = np.percentile(cluster_dist, percentile_closest)
    above_cutoff = (X_cluster_dist > cutoff_distance)
    X_cluster_dist[in_cluster & above_cutoff] = -1

partially_propagated = (X_cluster_dist != -1)
X_train_partially_propagated = X_train[partially_propagated]
y_train_partially_propagated = y_train_propagated[partially_propagated]
X_train_partially_propagated.shape, y_train_partially_propagated.shape

((1334,), (1334,))

In [None]:
# classifier pipeline mit Support Vektor Machine als Classifier definieren
lsvc_classifier = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('clf', LinearSVC(dual=False, C=1.6, class_weight="balanced")),
])

# classifier mit vorgeschalteter Pipeline trainieren:
lsvc_classifier.fit(X_train_partially_propagated, y_train_partially_propagated)  

# trainierten classifier auf die Testdaten anwenden, um den Accuracy Score zu ermitteln:
predicted = lsvc_classifier.predict(X_test)  

score_report = classification_report(predicted, y_test, target_names=le.classes_.tolist(), output_dict=True)
scores_SVC_AllProp50Labels = pd.DataFrame(score_report).transpose()
scores_SVC_AllProp50Labels


  _warn_prf(average, modifier, msg_start, len(result))


Unnamed: 0,precision,recall,f1-score,support
Etat,0.75,0.21028,0.328467,642.0
Inland,0.631387,0.570957,0.599653,303.0
International,0.664216,0.831288,0.73842,326.0
Kultur,0.0,0.0,0.0,0.0
Panorama,0.728477,0.67623,0.701382,488.0
Sport,0.83642,0.992674,0.907873,273.0
Web,0.772627,0.862069,0.814901,406.0
Wirtschaft,0.566929,0.644776,0.603352,335.0
Wissenschaft,0.006452,1.0,0.012821,1.0
accuracy,0.629776,0.629776,0.629776,0.629776


# Active Label mit Voting Propagated Labels 
Basis 50 k-Means Cluster

In [None]:
i = 0
in_cluster = (km["kmeans"].labels_ == i)
y_in_cluster = y_train.iloc[in_cluster]
# y_in_cluster
zaehler = y_in_cluster.count()
zaehlerGesamt += zaehler
modus = y_in_cluster.mode().values
anzLab = y_in_cluster.nunique()
purity = (1-(1/(zaehler/anzLab)))*100
clusterLabelTab.loc[i,:] = [i, zaehler, modus, anzLab,]
y_train_propVote[in_cluster] = modus

clusterLabelTab = clusterLabelTab.astype(int, copy=False)
clusterLabelTab.T

pd.Series(y_train_propVote).value_counts()

999    4085
6       603
7       513
4       488
5       338
1       221
2       180
0        43
dtype: int64

In [None]:
# Majority Label Voting

y_train_propVote = np.full(  len(X_train), 999, dtype=np.int32)
zaehlerGesamt = 0
clusterLabelTab = pd.DataFrame({"cid":[], "anzahl":[], "modus":[], "anzLab":[]}) #  "purity":[]
for i in range(k):
    in_cluster = (km["kmeans"].labels_ == i)
    y_in_cluster = y_train.iloc[in_cluster]
    # y_in_cluster
    zaehler = y_in_cluster.count()
    zaehlerGesamt += zaehler
    modus = y_in_cluster.mode().values
    anzLab = y_in_cluster.nunique()
    purity = (1-(1/(zaehler/anzLab)))*100
    # clusterLabelTab.loc[i,:] = [i, zaehler, modus, anzLab,]
    y_train_propVote[in_cluster] = modus

clusterLabelTab = clusterLabelTab.astype(int, copy=False)
# clusterLabelTab.T

y_train_propVote.value_counts()

ValueError: ignored

In [None]:
clusterLabelTab.T

In [None]:
# classifier pipeline mit Support Vektor Machine als Classifier definieren
lsvc_classifier = Pipeline([
  ('vect', CountVectorizer()),
  ('tfidf', TfidfTransformer(sublinear_tf=True)),                   
  ('clf', LinearSVC(dual=False, C=1.6, class_weight="balanced")),
])

# classifier mit vorgeschalteter Pipeline trainieren:
lsvc_classifier.fit(X_train, y_train_propVote)  

# trainierten classifier auf die Testdaten anwenden, um den Accuracy Score zu ermitteln:
predicted = lsvc_classifier.predict(X_test)  

score_report = classification_report(predicted, y_test, target_names=le.classes_.tolist(), output_dict=True)
scores_SVC_PropVotedLabels = pd.DataFrame(score_report).transpose()
scores_SVC_PropVotedLabels
