# 1 - Das Korpus

In [1]:
import pandas as pd

## Die ursprünglichen Korpora

### Das Gedichts-Korpus

- Korpus aus deutschen Gedichten
- Zeitraum von 1575 bis 1931
- 59081 deutsche Gedichte von 232 deutschen und nicht-deutschen Dichtern
- Zusammengestellt aus folgenden Korpora:
    - DTA-Korpus → TODO
    - Textgrid-Korpus → TODO
    - Antikoerperchen → Webseite für Schülerinterpretation von Gedichten
    
### Das Prosa-Korpus

- Korpus aus deutschen Prosatexten 
- Zeitraum 1510 bis 1940
- 2735 deutsche Texte von deutschen Autoren
- Extrahiert aus dem Gutenberg-DE Projekt

In [5]:
corpus = pd.read_csv("../corpora/german_poems.csv")
corpus.head(3)

Unnamed: 0,pid,filename,poet,title,year,poem,poemlength
0,38237,"Dahn, Felix_Ein Königsspiel_1873","Dahn, Felix",Ein Königsspiel,1873,Saß der König Artaxerxes In dem goldnen Haus z...,594
1,25612,"Tieck, Ludwig_[So wie ein Weiser schloß er sei...","Tieck, Ludwig",[So wie ein Weiser schloß er seinen Lauf],1813,"So wie ein Weiser schloß er seinen Lauf, Wohlt...",113
2,61526,"Rückert, Friedrich_UNTITLED_1837","Rückert, Friedrich",UNTITLED,1837,"Bei einem Lehrer iſt von Schuͤlern eine Gilde,...",287


## Probleme 

### Probleme des ursprünglichen Korpus

- sehr kurze Texte (Gedichte) → wenige Features im Vergleich zu anderen Textsorten
- Das Problem der Rechtschreibung
    - "Schreib, wie du sprichst!" bis 1901 (trotz vorherigen Bestrebungen)
    - 1901: II. Orthographische Konferenz
    - 1903: Einführung der Rechtschreibung in Schulen

### Probleme der Epocheneinteilung


<img src="img/epochen_deutsche_literaturgeschichte.png" height="700px;" width="500px;"/><br>AMANN, Helmut, Deutsche Literaturgeschichte. Vom Barock bis zum Expressionismus, Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan 2020, S. 10: "Grafische Übersicht der Epochen".

- keine eindeutigen Epochengrenzen 
    - Festlegung erfolgt perspektivistisch
    - „genaue Scheidung der einzelnen Epochen unmöglich oder erscheint zunächst als bedenkliche, wenn nicht gar als naive Willkür“ (WILPERT, Gero, Sachbuch der der Literatur, Stuttgart 1989, S. 252)
- Epochen überschneiden sich oder verlaufen parallel
- Epochen haben Subepochen
- Werke, die innerhalb einer Epoche geschrieben sind, sind nicht zwangsweise stellvertretend für die Epoche

&rArr; Epochen sind eine Hilfsfunktion. Sie bieten eine Orientierung, sind aber keine absolute Grenzziehung.

TODO Normalisierung:
- "ſ", "uͤ" und ähnliches ersetzen
- Umlaute auflösen (da ältere Texte unter Umständen "ue" anstatt "ü" benutzen)

In [20]:
example_row = corpus[corpus.pid == 61526]
example_row.loc[2, "poem"][:200]

'Bei einem Lehrer iſt von Schuͤlern eine Gilde, Die unterweiſet er in Gottesfurcht und Milde.Er weiſt zu Gottesfurcht und Milde nur ſie an, Doch einer eilt voraus den andern auf der Bahn.Am allerjuͤngſ'

## Lösung: ein verkürztes Korpus

- neuer Zeitraum: 1870-1930
- Zeitraum beinhaltet 

### Moderne (1890-1920, 1870-1930)
<a href="https://lektuerehilfe.de/literaturepochen/moderne">Quelle</a>
- Gegenbewegung zu Naturalismus und Realismus
- Versuch, den zeitlichen Umbruch widerzuspiegeln
- Sammelbegriff für mehrere literarische Strömungen: 
    - Ästhetizismus
    - Impressionismus
    - Jugendstil
    - Symbolismus
    - Neuromantik
    - Expressionismus
- Sprachlichkeit und Kommunikationslosigkeit im Fokus
- <b>Verfall, Dekadenz und Tod</b>
- Krise der Sprache und des Bewusstseins
- Das komplexe Innenleben des Individuums im Fokus
- <b>Auseinandersetzung mit der Sexualität</b>

#### Expressionismus 
- Zeitraum: 1900-1925
- Bedeutung: "Ausdruckskunst"
- geprägt von:
    - antibürgerlichen und antinationalistichen Denken
    - subjektive, existentielle, gesellschaftsrelevante Themen
- umstrittener Epochenbegriff, "Wir-Gefühl" als verbindendes Element
- Gliederung:
    - Frühexpressionismus (1910–1914)
    - Kriegsexpressionismus (1914–1918)
    - Spätexpressionismus (1918–1925)
    

In [3]:
poems = pd.read_csv("../corpora/german_poems.csv")
poems = poems[poems["year"] >= 1870]

In [5]:
poems.shape

(9756, 7)

In [7]:
poems.head(2)

Unnamed: 0,pid,filename,poet,title,year,poem,poemlength
0,38237,"Dahn, Felix_Ein Königsspiel_1873","Dahn, Felix",Ein Königsspiel,1873,Saß der König Artaxerxes In dem goldnen Haus z...,594
8,10927,"Tucholsky, Kurt_Auf ein Frollein_1912","Tucholsky, Kurt",Auf ein Frollein,1912,"Gott Amor zieht die Pfeile aus dem Köcher, er ...",218
