# üöÄ Auswahl des Forschungskorpus

Diese Fallstudie untersucht, wie deutschsprachige literarische Texte des 19. Jahrhunderts die abnehmende Luftqualit√§t reflektieren und diskursivieren.  
Ein zentraler Schritt besteht darin, ein geeignetes **Forschungskorpus** auszuw√§hlen, das den historischen Zeitraum und die thematische Breite unserer Forschungsfrage abdeckt.

Im Unterschied zur vorherigen Fallstudie, in der das Korpus selbst aufgebaut wurde, liegt der Fokus hier auf der **reflektierten Auswahl** eines bestehenden Korpus.

````{admonition} Lernziel
:class: keypoint
Nach diesem Abschnitt k√∂nnen Sie die Kriterien f√ºr die Auswahl eines geeigneten Forschungskorpus benennen, bestehende Korpora vergleichen und den Auswahlprozess datenbasiert begr√ºnden.
`````

---

## 1 Vom Aufbau zur Auswahl

W√§hrend in der Fallstudie 1 ein eigenes Zeitungskorpus zur Spanischen Grippe 1918/19 aufgebaut wurde, greifen wir in dieser Fallstudie auf bereits existierende digitale Korpora deutschsprachiger Prosa zur√ºck. Wir stehen also nicht vor der Aufgabe, Texte selbst zu digitalisieren, sondern m√ºssen reflektiert entscheiden, **welches existierende Korpus** f√ºr unsere Forschungsfrage geeignet ist.

Die im Kapitel [‚ÄûKorpora als Forschungsobjekte‚Äú](corpus-collection_corpora-as-research-objects.md) beschriebenen Strategien ‚Äì *Vollst√§ndigkeit, Repr√§sentativit√§t, Balance* und *Opportunismus* ‚Äì bilden dabei unseren Bewertungsrahmen {cite:p}`schoech2017`.

---

## 2 Vorhandene Korpora deutschsprachiger Prosa

Im Folgenden werden drei frei verf√ºgbare Korpora vorgestellt, die sich f√ºr literaturwissenschaftliche Analysen deutscher Prosa eignen. Konkret wurden f√ºr diese Fallstudie das [d-Prose-Korpus](https://zenodo.org/records/5015008), das [Corpus of German-Language Fiction](https://figshare.com/articles/dataset/Corpus_of_German-Language_Fiction_txt_/4524680) sowie das [German ELTeC-Korpus](https://zenodo.org/records/4662482) herangezogen.

| Korpus                                                                                                                                   | Beschreibung                                 | Zeitraum  | Format    | Auswahlstrategie             | St√§rken                                            | Schw√§chen                            |
| ---------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------- | --------- | --------- | ---------------------------- | -------------------------------------------------- | ------------------------------------ |
| **d-Prose 1870‚Äì1920** ([Zenodo](https://zenodo.org/records/5015008))                                                                     | ca. 150 Werke, TEI/XML, kuratiert            | 1870‚Äì1920 | TEI/XML   | balanciert                   | gute Metadaten, literaturwissenschaftlich gepflegt | begrenzter Zeitraum                  |
| **Corpus of German-Language Fiction** ([Figshare](https://figshare.com/articles/dataset/Corpus_of_German-Language_Fiction_txt_/4524680)) | ca. 1 200 Romane in Plain Text mit Metadaten | 1750‚Äì1950 | TXT | opportunistisch / balanciert | gro√üer Umfang, gute zeitliche Abdeckung            | uneinheitliche Metadaten, OCR-Fehler |
| **ELTeC-German** ([Zenodo](https://zenodo.org/records/4662482))                                                                          | ca. 100 Werke, nach ELTeC-Samplingprotokoll  | 1840‚Äì1920 | TEI/XML   | repr√§sentativ                | methodisch solide, Gender-Balance                  | relativ klein, L√ºcken vor 1840       |

```{admonition} Hinweis
:class: tip
Bereits in dieser √úbersicht zeigt sich, dass kein Korpus ‚Äûperfekt‚Äú ist. 
Die Entscheidung f√ºr ein Korpus h√§ngt immer vom Zusammenspiel zwischen Forschungsfrage, zeitlicher Abdeckung, Datenqualit√§t und praktischer Zug√§nglichkeit ab.
```

---

## 3 Explorative Analyse der Metadaten

Um die Eignung der Korpora genauer zu pr√ºfen, untersuchen wir zun√§chst ihre Metadaten.
Ziel ist es, **ein erstes Gef√ºhl f√ºr die zeitliche Verteilung, Vollst√§ndigkeit und Struktur** der Daten zu gewinnen.


In [None]:
import pandas as pd
import plotly.express as px
import plotly.io as pio
pio.renderers.default = "notebook"
from itables import show

# Option 1. ELTeC-DEU corpus

### Einlesen der Korpusmetadaten in Python

In [None]:
meta = pd.read_csv("https://zenodo.org/records/4662482/files/metadata.csv")
show(meta)

### Analyse der zeitlichen Verteilung des Korpus

Pro Jahr

In [None]:
# Anzahl der Texte pro Jahr

def summarize_texts_per_year(df, year_column):
    """Return per-yearcounts and summary stats for the given year column."""
    bins = df[year_column].dropna()
    if bins.empty:
        raise ValueError(f"No year values found in column '{year_column}'.")
    bins = bins.astype(int)
    counts = bins.value_counts().sort_index()
    full_index = pd.RangeIndex(counts.index.min(), counts.index.max() + 1)
    counts = counts.reindex(full_index, fill_value=0)
    stats = counts.agg(['mean', 'max', 'min']).rename({'mean': 'avg_per_year'})
    return counts, stats

year_counts, year_stats = summarize_texts_per_year(meta, 'year')

print("Textanzahl der Texte im ELTEC-DEU pro Jahr:")
print(year_stats)



In [None]:
fig_year = px.bar(
    x=year_counts.index,
    y=year_counts.values,
    labels={
        "x": "Jahr",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im ELTEC-DEU pro Jahr"
)

fig_year.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
    xaxis=dict(
        tickmode="linear",
        tickformat="d"  # ensure clean integer years
    ),
)

In [None]:
fig_year.show()

Pro Jahrzehnt

In [None]:
# Anzahl der Texte pro Jahrzehnt
def summarize_texts_per_decade(df, decade_column):
    """Return per-yearcounts and summary stats for the given year column."""
    bins = df[decade_column].dropna()
    if bins.empty:
        raise ValueError(f"No year values found in column '{decade_column}'.")
    bins = bins.astype(int)
    counts = bins.value_counts().sort_index()
    stats = counts.agg(['mean', 'max', 'min']).rename({'mean': 'avg_per_year'})
    return counts, stats

meta['decade'] = (meta['year'] // 10) * 10
decade_counts, decade_stats = summarize_texts_per_decade(meta, 'decade')

print("Textanzahl der Texte im ELTEC-DEU pro Jahrzehnt:")
print(decade_stats)

In [None]:
# Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)
fig_decade = px.bar(
    x=decade_counts.index.astype(str),
    y=decade_counts.values,
    labels={
        "x": "Jahrzehnt",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im ELTEC-DEU pro Jahrzehnt"
)

fig_decade.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
)

In [None]:
fig_decade.show()

# Option 2. d-Prose corpus

### Einlesen der Korpusmetadaten in Python

In [None]:
## code to analyse the metadata of the d-Prose corpus

meta_d_prose = pd.read_csv("https://zenodo.org/records/5015008/files/d-prose_V2_norm_year.csv", 
                           sep=';')
show(meta_d_prose)

### Analyse der zeitlichen Verteilung des Korpus

Pro Jahr (d-Prose)

In [None]:
year_counts, year_stats = summarize_texts_per_year(meta_d_prose, 'norm_year')

print("Textanzahl der Texte im d-Prose pro Jahr:")
print(year_stats)

Man sieht, dass d-Prose ein wesentlich "dichteres" Korpus ist ‚Ä¶

In [None]:
# Visualisierung der Jahresverteilung (Textanzahl pro Jahr)

fig_year = px.bar(
    x=year_counts.index,
    y=year_counts.values,
    labels={
        "x": "Jahr",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im d-Prose pro Jahr"
)

fig_year.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
    xaxis=dict(
        tickmode="linear",
        tickformat="d"  # ensure clean integer years
    ),
)

In [None]:
fig_year.show()

In [None]:
# Anzahl der Texte pro Jahrzehnt

meta_d_prose['decade'] = (meta_d_prose['norm_year'] // 10) * 10

decade_counts, decade_stats = summarize_texts_per_decade(meta_d_prose, 'decade')

print("Textanzahl der Texte im d-Prose pro Jahrzehnt:")
print(decade_stats)

In [None]:
# Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)
fig_decade = px.bar(
    x=decade_counts.index.astype(str),
    y=decade_counts.values,
    labels={
        "x": "Jahrzehnt",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im d-Prose pro Jahrzehnt"
)

fig_decade.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
)

In [None]:
fig_decade.show()

Man sieht jedoch auch, dass dieses Korpus sehr klein ist und den f√ºr uns relevanten Zeitraum nicht abdeckt.

# Option 3. Corpus of German-Language Fiction

F√ºr das ''Corpus of German-Language Fiction'' liegt keine fertige Metadatentabelle vor. S√§mtliche Metadaten sind hier in den Dateinamen in relativ standardisierter Form kodiert:

`Author_name_-_Text_title_(year).txt` 

e.g. 

`Abraham_Manuel_FroÃàhlich_-_Die_VerschuÃàttung_im_Hauenstein_(1858).txt`

Daher werden die Korpusdateien in einem [separaten Notebook](corpus-collection_metadata-extraction.ipynb) per RegEx in Metadaten √ºberf√ºhrt.
An dieser Stelle arbeiten wir mit den Metadaten, die aus diesem Parsing hervorgehen.

In [None]:
meta_gfc = pd.read_csv('../metadata/metadata_corpus-german_language_fiction.csv')
meta_gfc = meta_gfc[meta_gfc['year'] > 1500] # removing super-old outliers
show(meta_gfc)

### Analyse der zeitlichen Verteilung des Korpus

Textanzahl der Texte im 'Corpus of German Fiction' pro Jahr:

In [None]:
year_counts, year_stats = summarize_texts_per_year(meta_gfc, 'year')

print("Textanzahl der Texte im 'Corpus of German Fiction' pro Jahr:")
print(year_stats)

Visualisierung der Verteilung pro Jahr

In [None]:
fig_year = px.bar(
    x=year_counts.index,
    y=year_counts.values,
    labels={
        "x": "Jahr",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im 'Corpus of German-Language Fiction' pro Jahr"
)

fig_year.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
    xaxis=dict(
        tickmode="linear",
        tickformat="d"  # ensure clean integer years
    ),
)

In [None]:
fig_year.show()

Anzahl der Texte pro Jahrzehnt

In [None]:
# Anzahl der Texte pro Jahrzehnt

meta_gfc['decade'] = (meta_gfc['year'] // 10) * 10

decade_counts, decade_stats = summarize_texts_per_decade(meta_gfc, 'decade')

print("Textanzahl der Texte im 'Corpus of German-Language Fiction' pro Jahrzehnt:")
print(decade_stats)

Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)

In [None]:
# Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)

fig_decade = px.bar(
    x=decade_counts.index.astype(str),
    y=decade_counts.values,
    labels={
        "x": "Jahrzehnt",
        "y": "Anzahl Texte"
    },
    title="Zeitliche Verteilung der Texte im 'Corpus of German-Language Fiction' pro Jahrzehnt"
)

fig_decade.update_layout(
    height=350,
    margin=dict(l=40, r=40, t=60, b=40),
)

In [None]:
fig_decade.show()

## 4 Bewertung und Entscheidung

Die explorative Analyse erlaubt nun eine systematische Bewertung entlang der Kriterien von {cite:p}`schoech2017`.

| Kriterium           | ELTeC-German | d-Prose 1870‚Äì1920 | Corpus of German Fiction |
| ------------------- | ------------ | ----------------- | ------------------------ |
| Zeitliche Abdeckung | mittel       | gering            | hoch                     |
| Datenqualit√§t       | hoch         | hoch              | mittel                   |
| Repr√§sentativit√§t   | hoch         | mittel            | gering                   |
| Umfang              | klein        | mittel            | gro√ü                     |
| Verf√ºgbarkeit       | sehr gut     | gut               | gut                      |

```{admonition} Zwischenfazit
:class: keypoint
Das Corpus of German-Language Fiction bietet die gr√∂√üte zeitliche Breite und damit die besten Voraussetzungen, um Ver√§nderungen im sprachlichen Diskurs √ºber Luftqualit√§t im 19. Jahrhundert zu untersuchen.
```

---



Man erkennt, dass das **Corpus of German-Language Fiction** einerseits das einzige Korpus ist, das den f√ºr unsere Forschung notwendigen Zeitraum abdeckt. Andererseits ist es ‚Äì wie die Verteilung zeigt ‚Äì eindeutig nicht balanciert. In den Metadaten oder in der Korpusbeschreibung gibt es zudem keinerlei Hinweise darauf, dass dieses Korpus als repr√§sentativ angelegt wurde.

F√ºr die weiteren Analysen m√ºssen wir das Korpus daher filtern. Dies erfolgt im [n√§chsten Abschnitt](corpus-collection_filtering-our-corpus.ipynb).