# Spacy Pipeline mit pandas

## Importe

In [2]:
import spacy
import pickle

import pandas as pd

## Laden der Daten

In [3]:
df = pd.read_xml('../data/Bundesregierung.xml')

In [4]:
# change dtype to datetime
df.loc[:, 'datum'] = pd.to_datetime(df.loc[:, 'datum'])

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2983 entries, 0 to 2982
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   person      2983 non-null   object        
 1   titel       2982 non-null   object        
 2   datum       2983 non-null   datetime64[ns]
 3   untertitel  2088 non-null   object        
 4   url         2983 non-null   object        
 5   anrede      1447 non-null   object        
 6   rohtext     2983 non-null   object        
 7   ort         690 non-null    object        
dtypes: datetime64[ns](1), object(7)
memory usage: 186.6+ KB


## Doc-Objekt im pandas-Dataframe

Mit Hilfe einer Funktion kann für jede Zeile die Spalte 'rohtext' in ein Doc-Objekt umgewandelt  und in eine neue Spalte eingefügt werden.

Mit pickle kann der Dataframe gespeichert werden, sodass das Doc-Objekt erhalten bleibt. Allerdings ist dann die pickle-Datei mit fast 3.5 GB sehr groß. Wird der Dataframe wieder geladen, dann ist jedoch der Speicherbedarf des Arbeitsspeiche nicht sehr hoch.

### Funktion zum Erstellen des Doc-Objekts 

In [6]:
def create_doc_object(text, nlp):
    '''
    Loads SpaCy Language Model and creates a SpaCy Doc-Object.
    INPUT: string
    RETURN: spacy.tokens.doc.Doc
    '''       
        
    return nlp(text)    

In [7]:
nlp = spacy.load('de_core_news_md')

In [8]:
%%time

# Erstellen der Doc-Objekte
# kann ein paar Minuten laufen

df.loc[:, 'doc_object'] = df.loc[:, 'rohtext'].apply(lambda text: create_doc_object(text, nlp))

CPU times: user 10min 42s, sys: 1min 47s, total: 12min 29s
Wall time: 12min 31s


In [38]:
# speichern der Datei
# pickle-Datei ist fast 3.5 GB groß!

#df.to_pickle('../data/reden-bundesregierung.p')

In [37]:
# speichern als feather binary for use in R
import pyarrow.feather as feather
feather.write_feather(df, '../data/reden-bundesregierung.feather')

ArrowInvalid: ('Could not convert es ist angekündigt worden, man sollte im Beruf zwischen Schauspieler und Politiker wechseln. Das hatten wir schon einmal - in Amerika. Ich weiß nicht, ob das ein Modell sein sollte. Aber darüber ist heute nicht zu reden.\nIch fand es schön, dass der Regierende Bürgermeister an Hildegard Knef - "Hildchen", wie Ihre Kolleginnen und Kollegen sie nennen durften - erinnert hat. Ich glaube, man kann diese Filmfestspiele nicht eröffnen, ohne an sie zu denken, ohne von ihr zu reden. "Die Knef", so haben sie nicht nur diejenigen genannt, die sie gekannt haben, sondern so haben sie ganz viele genannt, nicht nur in Deutschland. Sie war - ich denke, da werden Sie mir Recht geben - eines jener wunderbaren Geschöpfe vom "Planet Kino", die zu unserem Leben gehört haben wie eine gute Bekannte, für viele Freundin, gelegentlich auch Kritikerin.\nWenn Sie mir gestatten, erinnere ich an meine letzte Begegnung hier in Berlin mit ihr und ihrem Mann. Sie hat mir erzählt, dass es eigentlich ganz schrecklich sei, dass sie nie einen deutschen Pass bekommen habe, obwohl sie viel hier gelebt habe und sicher auch bekannt sei. Wir haben das kurz und schnell geregelt. Sie hat dann ganz schnell ihren deutschen Pass bekommen, und ich denke, sie hat sich darüber gefreut. Sie war - zumindest für Deutschland und Berlin nach dem Krieg - nicht nur eine große Schauspielerin; sie war auch ein Stück der Geschichte unseres Landes. Sie war einer jener Menschen, von denen der große Billy Wilder, der diesem Festival von Beginn an ein guter Freund gewesen ist, einmal gesagt hat: "Ich hätte gern ein paar Menschen aus meinen Filmen im wirklichen Leben getroffen." Übrigens, ich auch. Ich denke, das geht vielen von Ihnen so.\nDas geht deshalb vielen von uns so, weil manch einer - ich nehme mich gar nicht davon aus - Paris ganz gern zusammen mit "Irma La Douce" entdeckt hätte. Ich hätte auch gern mit Audrey Hepburn bei "Tiffany\'s" gefrühstückt, ich wäre aber auch zufrieden gewesen, wenn ich mit Robert de Niro ins "Casino" hätte gehen können. Sie sehen, dass sind ganz unterschiedliche Vorlieben. Heute allerdings muss man mit Ernst hinzufügen: Einigen Menschen, vor allen Dingen einigen Szenen, die so aussahen, als wären sie aus dem Kino leibhaftig in die Wirklichkeit gekommen, wäre man nicht gern begegnet, hätte man nicht gern erlebt.\nAuch heute - knapp fünf Monate nach dem 11. September - hat niemand die schrecklichen Bilder von Washington und New York vergessen, die sich ein Katastrophenkino nicht schlimmer hätte ausdenken können. Das hören wir an einem solchen Tag vielleicht nicht gern, und ich kann das verstehen. Es ist schließlich ein Tag, an dem Sie, wir alle und vor allen Dingen die Berlinerinnen und Berliner zehn Tage eines wirklich großen Festes - ich bin sicher, ein solches wird es werden - rund um das Kino vor sich haben.\nAber ein solcher Rückgriff auf die Realität kann uns helfen, das Kino noch besser zu würdigen und es dann auch zu feiern. Kino ist eben nicht nur Traumfabrik, manchmal auch Alptraumfabrik, sondern Kino hilft beim Sehen und damit beim Verstehen. Es eröffnet Perspektiven, die man gelegentlich über den Job hinaus braucht, die wir alle nötig brauchen; jedenfalls dann, wenn wir uns miteinander vornehmen, das Leben der Menschen besser, toleranter, aber auch friedlicher zu gestalten. Sie als Künstlerinnen und Künstler können einen Riesenbeitrag dazu leisten.\nDeshalb ist das Motto des diesjährigen Festivals auch so vorzüglich gewählt: "Accept Diversity!" Lernen wir, soll das doch wohl heißen, mit dem "Anderen" zu leben und "Fremdes" zu akzeptieren, neugierig darauf zu sein - übrigens nicht im Sinne eines "Kultur-Einerlei", das alles irgendwie gleichberechtigt nebeneinander stellt, sondern als Basis und als Anregung, miteinander und voneinander zu lernen, die Werte des Zusammenlebens und der friedfertigen Auseinandersetzung zu entwickeln und zu fördern. Dabei hilft Kunst - Ihre allemal auch.\nIch will nicht falsch verstanden werden. Das Kino wie übrigens die Kunst im Allgemeinen hat keine Aufträge, schon gar keine politischen Aufträge entgegenzunehmen oder zu erfüllen. Das war nicht immer so - übrigens auch nicht in der Geschichte der Berliner Filmfestspiele. Gerade weil sich das Kino hier in Berlin immer mit einer Botschaft der Verständigung und des Brückenschlags präsentiert hat, gab es auch immer wieder Versuche, Pressionen auszuüben und politisch Einfluss zu nehmen. Wir wissen doch noch, jedenfalls die meisten von uns, dass etwa zu Zeiten des "Eisernen Vorhangs" Greta Garbo als die unvergessliche "Ninotschka" - ich erinnere mich ganz genau an den Hut - nicht einmal in einer Retrospektive gezeigt werden konnte. Ich habe mir überlegt, warum. Vermutlich nicht zuletzt wegen dieses schönen Satzes: "Ich könnte den Gedanken nicht ertragen, in einer Schublade eingeschlossen zu sein." Ich denke, das war den damaligen Herrschern, wie allen autoritären und diktatorischen Herrschern, zu viel an Freiheitswillen.\nInzwischen - das möchte ich Ihnen gerne versichern - ist die Berlinale wirklich völlig frei von politischem Reinreden, und zwar nicht zuletzt deshalb und gerade jetzt, weil wir neben dem, was am Kartenverkauf hereinkommt, die alleinige Finanzierung des Festivals übernommen haben. Wir haben ein ganz bestimmtes Verständnis von Kunst und Kultur. Wir sehen in der Freiheit des Films kein "Gespenst". Nicht einmal eines von Achternbusch.\nDas, was wir als Bundesregierung für die Förderung der Filmkultur tun können, machen wir. Wir wollen es auch noch besser machen. Wir haben schon einiges erreicht. Das will ich nicht verschweigen. Die Filmförderung des Bundes haben wir gegenüber 1998 um 30 Prozent erhöht - immerhin auf jetzt mehr als zehn Millionen Euro. Die meisten von Ihnen wissen, dass das nur der kleinere Teil der Förderung von Film in Deutschland ist, weil der größere bei den Ländern liegt, die über die Hoheit der Kultur verfügen, was immer das ist. Jedenfalls sind sie dafür zuständig. Sie müssen Kinoprogrammpreise verleihen und bestimmen. Sie machen Drehbuchförderung und die Förderung von Kopien. All das haben wir verdoppeln können.\nEs geht uns auch, aber eben nicht nur ums Geld. Ich habe schon bei manch einer Gelegenheit darauf hingewiesen, dass sich das öffentlich-rechtliche und private Fernsehen, das schließlich einer der Hauptnutznießer der Filmproduktion, also Ihrer Arbeit, ist, ruhig noch stärker bei der Förderung von Film und denen, die es machen, engagieren kann, ja muss.\nDas Konzept, das wir erarbeitet haben und das der Kulturstaatsminister vorgelegt hat, haben wir übrigens nicht einfach heruntergeschrieben, und es ist auch nicht in Gesprächen zwischen Beamten und uns entstanden. Ich hatte wiederholt - und ich habe es wirklich als Vergnügen empfunden - die Möglichkeit, mit Regisseuren, mit Autoren und Produzenten über die Bedürfnisse des Films zu diskutieren - lange, meistens nachts.\nWenn mit dem Jahr 2003 das Filmförderungsgesetz, das jetzt gilt, ausgelaufen sein wird, dann werden wir bei der Neuregelung alle diese Anregungen aufnehmen, und ich denke, wir werden auch zu einer deutlichen Erhöhung kommen, vor allen Dingen aber zu einer zielgenaueren Förderung dessen, was wir wollen.\nIn der Geschichte der Berlinale, die sich schon in ihrer Präambel zur Förderung der - wie es heißt - "Verständigung und der Freundschaft unter den Völkern" verpflichtet hat, erleben wir jetzt gleichsam eine dritte Epoche, und ich bin ganz sicher, unter der Regie von Dieter Kosslick wird es eine gute Epoche werden. Zunächst - in den Nachkriegsjahren - war es darum gegangen, Berlins und damit auch Deutschlands Rückkehr in den Westen, wie man so sagt, vorzubereiten. Das war nicht geografisch gemeint - jedenfalls nicht in erster Linie, aber das auch -, sondern das war kulturell gemeint: als Rückkehr in die Familie der Völker und der Zivilisationen. Anschließend war die Berlinale der Ort, an dem - nicht zuletzt durch Filme und die Begegnungen derer, die sie machen - die neue Einheit Europas vorweggenommen worden ist und werden konnte. Hier haben eine Menge Menschen aus Ost und West gelernt, sich besser zu verstehen, als es den damaligen diktatorischen Machthabern lieb sein konnte. Das war ein wirklich wichtiger Beitrag zur Überwindung der Teilung Europas und damit der Teilung Deutschlands.\nHeute, denke ich, steht dieses Festival vor einer neuen wichtigen Herausforderung, nämlich der, die universalen Werte, die eben nicht nur in den sogenannten westlichen Kulturen vorhanden sind, sondern die alle zivilisierten Menschen und alle Kulturen miteinander gemein haben, zu schützen - auch mit den Mitteln der Kunst - gegen die Unkultur des Hasses und der grenzenlosen Gewalt, die wir haben erleben müssen.\nKaum etwas könnte dies, so denke ich, besser dokumentieren als ein so großartiges Fest des Kinos hier in Berlin mit Teilnehmern aus sage und schreibe insgesamt 80 Ländern. Das Ganze findet ja - wie schon seit vielen Jahren - vor einem wirklich großen Publikum statt: nicht nur vor großen Stars und nicht minder großen Kritikern, sondern - und das ist doch wohl für Sie alle das Wichtigste - vor einer ganz großen Zahl von Filmbegeisterten aus Berlin, aber auch weit darüber hinaus, aus aller Welt. Man kann, denke ich, den Berliner Kinos, die sich an der Berlinale beteiligen, wirklich für die großen Möglichkeiten danken, die sie vor allen Dingen dem neugierigen und interessierten Publikum schaffen.\nNatürlich ist dieses Festival - das soll ja gar nicht verschwiegen und muss noch viel mehr öffentlich werden - eine große Messe und ein großer Marktplatz, auf dem auch ruhig verkauft werden darf. Das gibt Impulse für die künstlerische Entwicklung, aber auch für die Filmwirtschaft. Denen, die uns zuhören und zusehen, darf man ruhig einmal sagen, dass das ein immer wichtiger werdender Teil der Wirtschaft ist und es deswegen wichtig und richtig ist, ihn auch von staatlicher Seite her zu fördern. Das Fordern - sich selbst nämlich - werden diejenigen, die es machen, schon von alleine tun.\nMich freut ganz besonders - das werden Sie verstehen -, dass in diesem Jahr gleich vier deutsche Filme offenbar von so guter Qualität sind, dass sie den Sprung in den Wettbewerb geschafft haben. Natürlich bin ich auch froh darüber, dass es in diesem Jahr neben der für den Weltmarkt bestimmten Reihe "German Cinema" auch den Programmpunkt "Perspektive Deutsches Kino" gibt, und darüber, dass als weitere Premiere unter den vielen Premieren auch erstmals der beste Erstlingsfilm mit dem "First Movie Award" ausgezeichnet wird. Schon daran sieht man, dass es bei all dem nicht nur um eine Re-Nationalisierung - also keineswegs um den deutschen Film, der sich abgrenzen möchte - geht; das wäre in Zeiten immer weiterer, größerer, deutlicherer Internationalisierung auch ganz falsch. Nein, es geht dabei um das, was ich künstlerische Courage nennen würde, also Mut, den filmischen Nachwuchs zur Geltung kommen zu lassen, und vor allen Dingen Mut zur eigenen Perspektive, und das durchaus in internationaler Zusammenarbeit.\nDer heutige Eröffnungsfilm "Heaven", auf den ich sehr gespannt bin und den ich mir übrigens anschauen werde, ist nach einem Drehbuch des verstorbenen polnischen Regisseurs Krzysztof Kieslowski vom deutschen Regisseur Tom Tykwer, der vor einigen Jahren übrigens noch als Nachwuchstalent galt und heute ein international bewunderter Regisseur und Filmemacher ist, in Italien und Deutschland als multinationale Koproduktion realisiert worden. Das erwähne ich, damit auch nach außen deutlich wird, wie viel Internationalität es im Film gibt und wie nötig diese Internationalität auch ist.\nDas Kino - so denke ich - hat weder die Pflicht zur Kritik noch eine Verpflichtung zur Unterhaltung. Aber es wäre schon gut, wenn gutes Kino beides leisten könnte und beides leisten würde. Ich bin jetzt schon sicher, dass es dafür, dass beides geleistet werden kann, auf dieser Berlinale viele gute Beispiele geben wird. Das ist der Grund, warum ich allen Beteiligten für ihren Einsatz bei der Vorbereitung des Festivals danke. Den Teilnehmern und den Filmschaffenden wünsche ich wirklich ein riesiges Fest und den Jurymitgliedern eine spannende Wahl; die bekommen es dann ja ab - so oder so -, und das ist auch gut so.\nDamit bleibt mir nichts anderes übrig, als mit wirklich großer Freude die 52. Internationalen Filmfestspiele Berlin für eröffnet zu erklären. with type spacy.tokens.doc.Doc: did not recognize Python value type when inferring an Arrow data type', 'Conversion failed for column doc_object with type object')

### Einlesen der pickle-Datei

In [10]:
#df_p = pd.read_pickle('../data/reden-bundesregierung.p') # can't work if the file isn't saved to drive

In [11]:
df_p = df # this line is only necessary of the pickle is not loaded from drive
df_p.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2983 entries, 0 to 2982
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   person      2983 non-null   object        
 1   titel       2982 non-null   object        
 2   datum       2983 non-null   datetime64[ns]
 3   untertitel  2088 non-null   object        
 4   url         2983 non-null   object        
 5   anrede      1447 non-null   object        
 6   rohtext     2983 non-null   object        
 7   ort         690 non-null    object        
 8   doc_object  2983 non-null   object        
dtypes: datetime64[ns](1), object(8)
memory usage: 209.9+ KB


### Checks

In [13]:
type(df_p.loc[0, 'doc_object'])

spacy.tokens.doc.Doc

In [14]:
token_test = df_p.loc[0, 'doc_object']

In [15]:
for token in token_test[:10]:
    print(token.text, token.lemma_, token.pos_,token.ent_type_)

es ich PRON 
ist sein AUX 
angekündigt ankündigen VERB 
worden werden AUX 
, , PUNCT 
man man PRON 
sollte sollen AUX 
im im ADP 
Beruf Beruf NOUN 
zwischen zwischen ADP 


## Tokenisierung

In [36]:
def tokenize(doc):
    '''
    Tokenizes text using Doc-Object
    INPUT: Doc-Object
    RETURN: list with tokens
    '''
    return [ token.text for token in doc if not token.is_punct ] # das ist eine list comprehension
# geht schneller, als wenn es in einer klassischen Vorschleife läuft. 
# hier wird für jedes Token geguckt ob eine Bedingung erfüllt ist und dann eine bestimmte Eigenschaft des Tokens einer Liste beigefügt

In [35]:
# alternative mit einer klassischen Vorschleife
def tonikze_alt(doc):
    token_text_list = [] # create empty list
    for token in doc:
        if not token.is_punct:
            token_text_list.append(token.text)
    return token_text_list

In [24]:
%%time

df.loc[:, 'tokens'] = df.loc[:, 'doc_object'].apply(lambda doc: tokenize(doc))

CPU times: user 2.95 s, sys: 236 ms, total: 3.19 s
Wall time: 3.2 s


In [25]:
df.loc[:, 'ntokens'] = df.loc[:, 'tokens'].apply(lambda tokens: len(tokens))

In [26]:
df.loc[:, 'ntokens'].describe()

count     2983.000000
mean      1939.533691
std       1285.096751
min          6.000000
25%        963.500000
50%       1599.000000
75%       2605.000000
max      10459.000000
Name: ntokens, dtype: float64

## Lemmatisierung

In [27]:
def lemmatize(doc):
    '''
    Lemmatizes text using Doc-Object
    INPUT: Doc-Object
    RETURN: list with lowercase lemmatas with stopwords and punctuation removed    
    '''
    # create stopwords taken from http://members.unine.ch/jacques.savoy/clef/germanST.txt
    with open('../data/stopwords.txt', 'r', encoding='utf-8') as f:
        stopwords = f.read().splitlines()
    
    return [ token.lemma_.lower() for token in doc \
             if token.text not in stopwords \
             and token.is_alpha \
             and not token.is_punct ]

In [28]:
%%time

df.loc[:, 'lemmata'] = df.loc[:, 'doc_object'].apply(lambda doc: lemmatize(doc))

CPU times: user 33.5 s, sys: 270 ms, total: 33.7 s
Wall time: 33.9 s


In [29]:
type(df.loc[0, 'lemmata'])

list

## NER

In [30]:
def extract_named_entities(doc, entity='PER'):
    '''
    Extracts named entities from Doc-Object.
    INPUT: Doc-Object
    RETURN: List with entities    
    '''
    return [ token.text for token in doc.ents if token.label_ == entity ]

In [31]:
%%time

entities = ['PER', 'ORG', 'LOC', 'MISC']

for entity in entities:
    df.loc[:, entity] = df.loc[:, 'doc_object'].apply(lambda doc: extract_named_entities(doc, entity=entity))

CPU times: user 1.83 s, sys: 127 ms, total: 1.96 s
Wall time: 1.97 s


In [32]:
df.head(3).T

Unnamed: 0,0,1,2
person,Gerhard Schröder,Julian Nida-Rümelin,Gerhard Schröder
titel,Rede des Bundeskanzlers zur Eröffnung der 52. ...,Redebeitrag von Staatsminister Nida-Rümelin in...,Interview mit Bundeskanzler Schröder in 'Berli...
datum,2002-02-06 00:00:00,2002-02-01 00:00:00,2002-04-14 00:00:00
untertitel,"Man kann diese Filmfestspiele nicht eröffnen, ...","""Ich bin der Auffassung, wir müssen nicht nur ...",In dem Interview äußert sich Bundeskanzler Sch...
url,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...
anrede,"Sehr geehrte Frau Nair, liebe Mitglieder der J...",Meine sehr geehrten Damen und Herren!,
rohtext,"es ist angekündigt worden, man sollte im Beruf...","Frau Präsidentin! An Sie gerichtet, Herr Börn...",Frage (Peter Hahne): Bevor wir uns über den Au...
ort,,,
doc_object,"(es, ist, angekündigt, worden, ,, man, sollte,...","(Frau, Präsidentin, !, , An, Sie, gerichtet, ...","(Frage, (, Peter, Hahne, ):, Bevor, wir, uns, ..."
tokens,"[es, ist, angekündigt, worden, man, sollte, im...","[Frau, Präsidentin, , An, Sie, gerichtet, Her...","[Frage, Peter, Hahne, Bevor, wir, uns, über, d..."


In [147]:
check_dtype = df.loc[0, 'tokens']

In [148]:
type(check_dtype)

list

In [149]:
type(check_dtype[0])

str

## POS

In [130]:
def extract_pos(doc, pos_tag='NOUN'):
    '''
    Extracts Part-of-Speech-Tag from doc-Object
    INPUT: Doc-Object
    RETURN: list with tokens
    '''
    return [ token.text.lower() for token in doc if token.pos_ == pos_tag ]

In [131]:
%%time

pos_tags = ['NOUN', 'VERB', 'ADJ']

for pos_tag in pos_tags:
    df.loc[:, pos_tag] = df.loc[:, 'doc_object'].apply(lambda doc: extract_pos(doc, pos_tag=pos_tag))

Wall time: 4.56 s


In [132]:
df.head(3).T

Unnamed: 0,0,1,2
person,Gerhard Schröder,Julian Nida-Rümelin,Gerhard Schröder
titel,Rede des Bundeskanzlers zur Eröffnung der 52. ...,Redebeitrag von Staatsminister Nida-Rümelin in...,Interview mit Bundeskanzler Schröder in 'Berli...
datum,2002-02-06 00:00:00,2002-02-01 00:00:00,2002-04-14 00:00:00
untertitel,"Man kann diese Filmfestspiele nicht eröffnen, ...","""Ich bin der Auffassung, wir müssen nicht nur ...",In dem Interview äußert sich Bundeskanzler Sch...
url,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...
anrede,"Sehr geehrte Frau Nair, liebe Mitglieder der J...",Meine sehr geehrten Damen und Herren!,
rohtext,"es ist angekündigt worden, man sollte im Beruf...","Frau Präsidentin! An Sie gerichtet, Herr Börn...",Frage (Peter Hahne): Bevor wir uns über den Au...
ort,,,
doc_object,"(es, ist, angekündigt, worden, ,, man, sollte,...","(Frau, Präsidentin, !, , An, Sie, gerichtet, ...","(Frage, (, Peter, Hahne, ):, Bevor, wir, uns, ..."
tokens,"[es, ist, angekündigt, worden, man, sollte, im...","[Frau, Präsidentin, , An, Sie, gerichtet, Her...","[Frage, Peter, Hahne, Bevor, wir, uns, über, d..."


## Speichern der Resultate

### als csv

In [150]:
df.to_csv('../data/reden-bundesregierung-preprocessed-with-doc-object.csv', index=False)

In [151]:
df_ohne_doc = df.drop(['doc_object'], axis=1)

In [152]:
df_ohne_doc.to_csv('../data/reden-bundesregierung-preprocessed.csv', index=False)

### als pickle

In [153]:
df_ohne_doc.to_pickle('../data/reden-bundesregierung-preprocessed.p')

## checks

### from csv

In [154]:
df_1 = pd.read_csv('../data/reden-bundesregierung-preprocessed-with-doc-object.csv')

In [155]:
df_1.head(3).T

Unnamed: 0,0,1,2
person,Gerhard Schröder,Julian Nida-Rümelin,Gerhard Schröder
titel,Rede des Bundeskanzlers zur Eröffnung der 52. ...,Redebeitrag von Staatsminister Nida-Rümelin in...,Interview mit Bundeskanzler Schröder in 'Berli...
datum,2002-02-06,2002-02-01,2002-04-14
untertitel,"Man kann diese Filmfestspiele nicht eröffnen, ...","""Ich bin der Auffassung, wir müssen nicht nur ...",In dem Interview äußert sich Bundeskanzler Sch...
url,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...
anrede,"Sehr geehrte Frau Nair, liebe Mitglieder der J...",Meine sehr geehrten Damen und Herren!,
rohtext,"es ist angekündigt worden, man sollte im Beruf...","Frau Präsidentin! An Sie gerichtet, Herr Börn...",Frage (Peter Hahne): Bevor wir uns über den Au...
ort,,,
doc_object,"es ist angekündigt worden, man sollte im Beruf...","Frau Präsidentin! An Sie gerichtet, Herr Börn...",Frage (Peter Hahne): Bevor wir uns über den Au...
tokens,"['es', 'ist', 'angekündigt', 'worden', 'man', ...","['Frau', 'Präsidentin', ' ', 'An', 'Sie', 'ger...","['Frage', 'Peter', 'Hahne', 'Bevor', 'wir', 'u..."


In [158]:
type(df_1.loc[0, 'doc_object'])

str

In [159]:
type(df_1.loc[0, 'tokens'])

str

In [164]:
df_1b = pd.read_csv('../data/reden-bundesregierung-preprocessed.csv')

In [165]:
type(df_1.loc[0, 'tokens'])

str

In [174]:
ORG_Test = df_1b.loc[0, 'LOC']

In [175]:
ORG_Test[0]

'['

In [176]:
type(ORG_Test)

str

In [177]:
type(ORG_Test[0])

str

### from pickle

In [160]:
df_2 = pd.read_pickle('../data/reden-bundesregierung-preprocessed.p')

In [162]:
type(df_2.loc[0, 'tokens'])

list

In [163]:
df_2.head(3).T

Unnamed: 0,0,1,2
person,Gerhard Schröder,Julian Nida-Rümelin,Gerhard Schröder
titel,Rede des Bundeskanzlers zur Eröffnung der 52. ...,Redebeitrag von Staatsminister Nida-Rümelin in...,Interview mit Bundeskanzler Schröder in 'Berli...
datum,2002-02-06 00:00:00,2002-02-01 00:00:00,2002-04-14 00:00:00
untertitel,"Man kann diese Filmfestspiele nicht eröffnen, ...","""Ich bin der Auffassung, wir müssen nicht nur ...",In dem Interview äußert sich Bundeskanzler Sch...
url,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...,http://archiv.bundesregierung.de/bpaexport/red...
anrede,"Sehr geehrte Frau Nair, liebe Mitglieder der J...",Meine sehr geehrten Damen und Herren!,
rohtext,"es ist angekündigt worden, man sollte im Beruf...","Frau Präsidentin! An Sie gerichtet, Herr Börn...",Frage (Peter Hahne): Bevor wir uns über den Au...
ort,,,
tokens,"[es, ist, angekündigt, worden, man, sollte, im...","[Frau, Präsidentin, , An, Sie, gerichtet, Her...","[Frage, Peter, Hahne, Bevor, wir, uns, über, d..."
ntokens,1911,1319,1512


In [170]:
ORG_Test = df_2.loc[0, 'LOC']

In [171]:
ORG_Test[0]

'Amerika'

In [172]:
type(ORG_Test)

list

In [173]:
type(ORG_Test[0])

str