# Text in Python

Für die computergestützte Textanalyse sind Texte zunächst nur eine Aneinanderreihung von Buchstaben oder genauer: Zeichen. Diese Art von Text, die ohne Formatierung wie Schriftart, Schritgröße oder Fettungen auskommt, wird als “plain text” bezeichnet. Plain text erhält man etwa, wenn man ein Word-Dokument als TXT-Datei mit der Endung .txt speichert. Der entsprechende Datentyp in Python heißt `str`, von “string” (Zeichenkette).

Texte werden in unterschiedlichen Kodierungen gespeichert, die festlegen, wie die einzelnen Zeichen (etwa „a“, „á“, aber auch „道“) für den Computer in 0 und 1 umgewandelt werden. Die zeitgemäße Kodierung ist UTF-8, die dem Unicode-Standard folgt. Textdateien sollten für die Arbeit in Python immer in dieser Kodierung gespeichert werden.

Um in Python mit Texten arbeiten zu können, muss man sie erst einmal aus einer Datei laden und z.B. in einer Variable speichern. Dabei muss man die Datei nicht die ganze Zeit geöffnet lassen. Nachdem der Text in einer Variable gespeichert ist, kann (und sollte) man die Datei wieder schließen. Die Arbeitsschritte sind also:

1. Datei öffnen,
2. Inhalt einlesen,
3. Datei schließen,
4. Inhalt analysieren.

Ein Hinweis zu Dateipfaden: Wenn man in Python eine Datei öffnen will, muss man den Pfad der Datei angeben. Statt eines vollständigen Pfads wie "`C:\Users\me\Documents\Text.txt`" kann man auch einen Pfad relativ vom IPython Notebook angeben. Wenn die Datei im gleichen Verzeichnis liegt wie das Notebook, ist dies einfach der Dateiname, also z.B. "`Text.txt`". Wenn die Datei in einem Unterverzeichnis liegt, muss man dieses voranstellen, z.B. "`Daten\Text.txt`". Ein *übergeordnetes* Verzeichnis erreicht man mit "`..`", also z.B. "`..\Daten\Text.txt`".

Da sich die Pfadtrenner zwischen MacOS X und Linux ("`/`") und Windows ("`\`") unterscheiden, lassen sie sich nicht ohne weiteres übernehmen. Python hat daher die Funktion `path.join()`, die je nach Betriebssystem den richtigen Trenner verwendet:

In [1]:
from os import path
filepath = path.join('..', 'Daten', 'Rede_Jugend_forscht.txt')
# MacOS, Linux: '../Daten/Rede_Jugend_forscht.txt'
# Windows: '..\\Daten\\Rede_Jugend_forscht.txt'

In [2]:
textfile = open(filepath)
text = textfile.read()
textfile.close()

In Python gibt es auch einen Mechanismus, bei dem eine Datei nur so lange geöffnet bleibt, wie sie gebraucht wird. Anschließend wird sie automatisch wieder geschlossen:

In [3]:
with open(filepath) as textfile:
    text = textfile.read()

Nun ist der gesamte Text als sehr lange Zeichenkette in einer Variable gespeichert:

In [4]:
len(text)

7244

Man kann sich zur Kontrolle den Anfang des Textes ausgeben lassen:

In [5]:
sample = text[0:200]
sample

'Lieber Herr Kock,\nliebe Kollegin, Frau Wanka,\nmeine Damen und Herren,\naber besonders: liebe Preisträgerinnen und Preisträger von „Jugend forscht“,\n\nich heiße Sie alle ganz herzlich im Bundeskanzleramt'

In dieser unleserlichen Ansicht steht die Zeichenfolge `\n` für einen Zeilenumbruch. Ein Zeilenumbruch ist für Python auch nur ein Zeichen. Da es aber nicht ohne weiteres dargestellt werden kann, wird es hier durch ein solches Spezialkommando symbolisiert.

Eine leserliche Ansicht erhält man mit dem `print()`-Befehl:

In [6]:
print(sample)

Lieber Herr Kock,
liebe Kollegin, Frau Wanka,
meine Damen und Herren,
aber besonders: liebe Preisträgerinnen und Preisträger von „Jugend forscht“,

ich heiße Sie alle ganz herzlich im Bundeskanzleramt


Für die Analyse sind in der Regel nicht Text als Ganzes relevant, sondern kleinere Einheiten wie z.B. Zeilen oder Wörter. Dabei hängt es von der Fragestellung ab, welche Einheit betrachtet werden soll. Zur Veranschaulichung betrachten wir den Text zeilenweise:

In [7]:
sample.splitlines()

['Lieber Herr Kock,',
 'liebe Kollegin, Frau Wanka,',
 'meine Damen und Herren,',
 'aber besonders: liebe Preisträgerinnen und Preisträger von „Jugend forscht“,',
 '',
 'ich heiße Sie alle ganz herzlich im Bundeskanzleramt']

Der Text ist nun in eine Liste aus kürzeren Zeichenketten zerlegt, eine leere Zeichenkette steht dabei für eine Leerzeile bzw. einen Absatz.

Für die Analyse kann es sinnvoll sein, die Anrede auszuschließen. Näherungsweise kann man in diesem Beispiel die Anrede an besonders kurzen Zeilen erkennen. Über einen Filter kann man diese Zeilen herausfinden:

In [8]:
lines = text.splitlines()
[line for line in lines if len(line) < 80]

['Lieber Herr Kock,',
 'liebe Kollegin, Frau Wanka,',
 'meine Damen und Herren,',
 'aber besonders: liebe Preisträgerinnen und Preisträger von „Jugend forscht“,',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Der bereinigte Text sollte dementsprechend nur die längeren Zeilen enthalten:

In [9]:
cleaned_text = [line for line in lines if len(line) >= 80]
cleaned_text[0]

'ich heiße Sie alle ganz herzlich im Bundeskanzleramt willkommen. Dieses Jahr ist ein ganz besonderes Jahr: natürlich zum einen, weil Sie alle einen Preis gewonnen haben – das dürfte in Ihrem Leben durchaus eine gute Rolle gespielt haben –; zum anderen, weil der Bundeswettbewerb bereits zum 50. Mal stattgefunden hat. Das ist ja doch eine gewaltige Zahl. Wenn Sie diese einmal mit Ihren eigenen Lebensjahren vergleichen, dann sehen Sie, dass schon einige Generationen vor Ihnen an diesem Wettbewerb teilgenommen haben. Beides – sowohl Ihr Erfolg als auch die Tatsache, dass „Jugend forscht“ schon 50 Jahre lang besteht – liefert gute Gründe, um einfach einmal zu gratulieren.'

In der Regel ist die interessierende Analyseeinheit das Wort. Näherungsweise kann man den Text in Wörter zerlegen, indem man ihn an den Leerzeichen trennt:

In [10]:
words = sample.split()
words[0:20]

['Lieber',
 'Herr',
 'Kock,',
 'liebe',
 'Kollegin,',
 'Frau',
 'Wanka,',
 'meine',
 'Damen',
 'und',
 'Herren,',
 'aber',
 'besonders:',
 'liebe',
 'Preisträgerinnen',
 'und',
 'Preisträger',
 'von',
 '„Jugend',
 'forscht“,']

Das Ergebnis zeigt, dass Satzzeichen hier nicht berücksichtigt werden und weiter am Wort „kleben“. Die folgenden Einheiten zeigen daher bessere Wege, Texte in Wörter zu zerlegen.