# üöÄ Analyse 1: Diachrone Frequenzdiagramme des semantischen Felds "Luft"

## Hinweise zur Ausf√ºhrung des Notebooks
Dieses **Notebook** kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt ["Technische Voraussetzungen"](../introduction/introduction_requirements)): 
1. Book-Only Mode
2. Cloud Mode: Daf√ºr auf üöÄ klicken und z.B. in Colab ausf√ºhren.
3. Local Mode: Daf√ºr auf Herunterladen ‚Üì klicken und ".ipynb" w√§hlen. 

## √úbersicht 
Im Folgenden werden die annotierten Dateien (CSV-Format) analysiert. Unser Ziel ist es, die Wort-/Lemma-H√§ufigkeiten des semantischen Felds "Luft" √ºber Zeit zu analysieren und zu visualisieren, um festzustellen, ob es, parallel zur industriellen Revolution, einen Anstieg im Auftreten des Felds gibt. 

Daf√ºr werden folgendene Schritte durchgef√ºhrt:
1. Einlesen des Korpus, der Metadaten-Dateien f√ºr Korpora I und II und des semantischen Felds "Luft"
2. Extraktion der Worth√§ufigkeiten und Plotten der Worth√§ufigkeiten f√ºr Korpus I
3. Extraktion der Worth√§ufigkeiten und Plotten der Worth√§ufigkeiten f√ºr Korpus II
4. Diskussion der Ergebnisse

<details>
  <summary><b>Informationen zum Ausf√ºhren des Notebooks ‚Äì Zum Ausklappen klicken ‚¨áÔ∏è</b></summary>
  
<b>Voraussetzungen zur Ausf√ºhrung des Jupyter Notebooks</b>
<ol>
<li> Installieren der Bibliotheken </li>
<li> Pfad zu den Daten setzen</li>
<li> Laden der Daten (z.B. √ºber den Command `wget` (s.u.))</li>
</ol>
Zum Testen: Ausf√ºhren der Zelle "load libraries" und der Sektion "Einlesen der Daten". </br>
Alle Zellen, die mit üöÄ gekennzeichnet sind, werden nur bei der Ausf√ºhrung des Noteboos in Colab / JupyterHub bzw. lokal ausgef√ºhrt. 
</details>

In [None]:
#  üöÄ Install libraries 
! pip install pandas spacy tqdm plotly numpy

In [None]:
import re
import requests
from pathlib import Path
from typing import Dict, List, Union, Tuple

import pandas as pd
from time import time
from tqdm.auto import tqdm
from itables import show
import numpy as np

import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
pio.renderers.default = "notebook"

## Einlesen der Daten, Metadaten und der Grippe-Wortliste
Um eine/mehrere Dateien mit Python bearbeiten zu k√∂nnen, m√ºssen die Dateien zuerst ausgew√§hlt werden, d.h der [Pfad](https://en.wikipedia.org/wiki/Path_(computing)) zu den Dateien wird gesetzt, und dann eingelesen werden. 

### Einlesen des Korpus (CSV-Dateien)

<details>
  <summary><b>Informationen zum Ausf√ºhren des Notebooks ‚Äì Zum Ausklappen klicken ‚¨áÔ∏è</b></summary>
Zuerst wird der Ordner angelegt, in dem die CSV-Dateien gespeichert werden. Der Einfachheit halber wird die gleich Datenablagestruktur wie in dem <a href="https://github.com/quadriga-dk/Text-Fallstudie-1/tree/main">GitHub Repository</a>, in dem die Daten gespeichert sind, vorausgesetzt. </br>
Danach werden alle CSV-Dateien im Korpus heruntergeladen und gespeichert. Daf√ºr sind folgende Schritte n√∂tig:
<ol>
    <li>Es wird eine Liste erstellt, die die URLs zu den einzelnen CSV-Dateien beinhaltet.</li>
    <li>Die Liste wird als txt-Datei gespeichert.</li>
    <li>Alle Dateien aus der Liste werden heruntergeladen und in dem Ordner <i>../data/csv</i> gespeichert.</li>
</ol>
Sollten die Dateien schon an einem anderen Ort vorhanden sein, k√∂nnen die Dateipfade zu den Ordnern angepasst werden. </br>
</details>

In [None]:
# üöÄ Create data directory path
corpus_dir = Path("../data/csv")
if not corpus_dir.exists():
    corpus_dir.mkdir()

In [None]:
# üöÄ Create download list 
github_api_txt_dir_path = "https://api.github.com/repos/quadriga-dk/Text-Fallstudie-3/contents/data/csv"
txt_dir_info = requests.get(github_api_txt_dir_path).json()
url_list = [entry["download_url"] for entry in txt_dir_info]

# üöÄ Write download list as txt file
url_list_path = Path("github_csv_file_urls.txt")
with url_list_path.open('w') as output_txt:
    output_txt.write("\n".join(url_list))

In [None]:
# ‚ö†Ô∏è Only execute, if you haven't downloaded the files yet!
# üöÄ Download all csv files ‚Äì this step will take a while (ca. 7 minutes)
! wget -i github_csv_file_urls.txt -P ../data/spacy

Setzen des Pfads:

In [None]:
# set the path to csv files to be processed
corpus_dir = Path(r"../data/csv")

Einlesen der CSV-Dateien

In [None]:
annotated_docs = {}
start = time()
for fp in tqdm(corpus_dir.iterdir(), desc="Reading annotated data"):
    # check if the entry is a file, not a directory
    if fp.is_file():
        # check if the file has the correct suffix spacy
        if fp.suffix == '.csv':
            df = pd.read_csv(fp)
            annotated_docs[fp.stem] = df
took = time() - start
print(f"Loading the data took: {round(took, 4)} seconds") 

Wie viele Dateien wurden eingelesen?

In [None]:
len(annotated_docs)

Wie sieht der Anfang der ersten Datei aus?

In [None]:
annotated_docs[list(annotated_docs.keys())[1]][:15]

### Einlesen der Metadaten

<details>
  <summary><b>Informationen zum Ausf√ºhren des Notebooks ‚Äì Zum Ausklappen klicken ‚¨áÔ∏è</b></summary>
Zuerst wird der Ordner angelegt, in dem die Metadaten-Datei gespeichert wird. Wieder wird die gleich Datenablagestruktur wie in dem <a href="https://github.com/quadriga-dk/Text-Fallstudie-1/tree/main">GitHub Repository</a> vorausgesetzt. </br>
Der Text wird aus GitHub heruntergeladen und in dem Ordner <i>../data/metadata/</i> abgespeichert. </br>
Der Pfad kann in der Variable <i>metadata_path</i> angepasst werden. Die einzulesende Datei muss die Endung `.csv` haben. </br>
</details>

In [None]:
# üöÄ Create metadata directory path
metadata_dir = Path("../metadata")
if not metadata_dir.exists():
    metadata_dir.mkdir()

In [None]:
# üöÄ Load the metadata file from GitHub 
! wget https://raw.githubusercontent.com/quadriga-dk/Text-Fallstudie-1/refs/heads/main/data/metadata/QUADRIGA_FS-Text-01_Data01_Corpus-Table.csv -P ../data/metadata

In [None]:
# set path to metadata file
metadata_path_1 = '../metadata/metadata_corpus-german_language_fiction_1820-1900_50-per-decade.csv'
metadata_path_2 = '../metadata/metadata_corpus-german_language_fiction_1820-1900_50-per-decade_ALT.csv'

def read_replace_metadata(fp):
    corpus_metadata = pd.read_csv(fp)
    corpus_metadata['year'] = pd.to_datetime(corpus_metadata['year'], format='%Y')
    corpus_metadata = corpus_metadata.fillna("-")
    return corpus_metadata

# read metadata file to pandas dataframe
corpus_metadata_1 = read_replace_metadata(metadata_path_1)
corpus_metadata_2 = read_replace_metadata(metadata_path_2)

Wie sieht die Metadaten-Datei aus? (erste f√ºnf Zeilen)

In [None]:
show(corpus_metadata_1)

### Einlesen der Wortliste (Semantisches Feld "Luft")

<details>
  <summary><b>Informationen zum Ausf√ºhren des Notebooks ‚Äì Zum Ausklappen klicken ‚¨áÔ∏è</b></summary>
Parallel zur Metadaten-Datei wird ein Ordner f√ºr die Wortlisten-Datein angelegt, die Datei wird aus GitHub geladen und in dem erstellten Ordner abgelegt.
</details>

In [None]:
# üöÄ Create word list directory path
wordlist_dir = Path("../wordlist")
if not wordlist_dir.exists():
    wordlist_dir.mkdir()

In [None]:
# üöÄ Load the wordlist file from GitHub 
! wget https://raw.githubusercontent.com/quadriga-dk/Text-Fallstudie-3/refs/heads/main/wordlist/luft_semantisches_feld.txt -P ../wordlist

In [None]:
path_to_wordlist = Path("../wordlist/luft_semantisches_feld.txt")
semantic_field_nouns = list(set([word for word in path_to_wordlist.read_text().split("\n") if len(word) > 0]))

Wie sieht die Wortliste aus?

In [None]:
semantic_field_nouns[:20]

## H√§ufigkeiten der W√∂rter im semantischen Feld berechnen

In [None]:
def extract_noun_list_counts(annotated_docs: Dict, metadata_df: pd.DataFrame, 
                                  noun_list: List[str]) -> pd.DataFrame:
    """
    Calculate the combined relative frequency of a list of nouns for each text.
    
    Parameters:
    -----------
    spacy_docs : dict
        Dictionary with file_ids as keys and spaCy Doc objects as values
    metadata_df : pd.DataFrame
        DataFrame with columns: 'lastname', 'firstname', 'title', 'year', 'ID', 'decade'
    noun_list : list of str
        List of noun lemmata to count together
    
    Returns:
    --------
    pd.DataFrame
        DataFrame with columns: filename, title, year, total_freq, total_count, total_tokens
    """
    results = []
    
    for meta_row in metadata_df.itertuples():
        file_id = meta_row.ID
        
        if file_id in annotated_docs:
            doc = annotated_docs[file_id]
        else:
            print(f"File {file_id} not in the corpus. Skipping...")
            continue
        
        # Count total tokens
        total_tokens = len(doc)

        # Skip empty texts
        if total_tokens == 0:
            continue
            
        # Count occurrences of the nouns in the list
        nouns = doc[doc.POS == 'NOUN']
        lemma_counts = nouns.Lemma.value_counts()
        counts = lemma_counts.reindex(noun_list, fill_value=0)
        specific_nouns = pd.DataFrame([counts.values], columns=counts.index)
        
        specific_nouns['ID'] = file_id
        specific_nouns['total_count_tokens'] = total_tokens
        results.append(specific_nouns)
    combined_result = pd.concat(results, ignore_index=True)
    metadata_result = pd.merge(metadata_df, combined_result, on="ID")
    
    return metadata_result

def get_relative_frequencies(df, semantic_field_nouns):
    df['total_count_semantic_field'] = df[semantic_field_nouns].sum(axis=1)
    df['relative_frequency'] = (df['total_count_semantic_field'] / df['total_count_tokens'])*100
    return df

In [None]:
# Extract frequencies for Corpus I and II
count_1_df = extract_noun_list_counts(annotated_docs, corpus_metadata_1, semantic_field_nouns)
count_2_df = extract_noun_list_counts(annotated_docs, corpus_metadata_2, semantic_field_nouns)

In [None]:
# Calculate relative frequencies for Corpus I and II
freq_1_df = get_relative_frequencies(count_1_df, semantic_field_nouns)
freq_2_df = get_relative_frequencies(count_2_df, semantic_field_nouns)

#### Ergebnisse f√ºr Korpus I angucken

In [None]:
show(freq_1_df[['lastname', 'firstname', 'title', 'year', 'total_count_tokens', 'total_count_semantic_field', 'relative_frequency']])

#### Ergebnisse f√ºr Korpus II angucken

In [None]:
show(freq_2_df[['lastname', 'firstname', 'title', 'year', 'total_count_tokens', 'total_count_semantic_field', 'relative_frequency']])

### H√§ufigkeiten plotten

In [None]:
def plot_noun_list_scatter(freq_df: pd.DataFrame, noun_list: List[str], 
                          show_trendline: bool = True, verbose: bool = False):
    """
    Create a scatter plot showing the combined frequency of a noun list over time.
    
    Parameters:
    -----------
    freq_df : pd.DataFrame
        DataFrame returned by extract_noun_list_frequencies()
    noun_list : list of str
        The list of nouns being analyzed (for the text)
    show_trendline : bool
        If True, add a linear regression trendline (default: True)
    verbose : bool
        If True, print diagnostic information about the trendline (default: False)
    
    Returns:
    --------
    plotly.graph_objects.Figure
        The figure object (will display automatically in Jupyter)
    """
    # Create scatter plot
    fig = go.Figure()
    
    fig.add_trace(go.Scatter(
        x=freq_df['year'],
        y=freq_df['relative_frequency'],
        mode='markers',
        name='Texts',
        text=freq_df['title'],
        customdata=np.column_stack((freq_df['total_count_semantic_field'], freq_df['lastname'])),
        hovertemplate='<b>%{text}</b> (%{customdata[1]})<br>' +
                     'Year: %{x|%Y}<br>' +
                     'Frequency: %{y:.2f} per 100 tokens<br>' +
                     'Total count: %{customdata[0]}<br>' +
                     '<extra></extra>',
        marker=dict(
            size=8,
            color='steelblue',
            opacity=0.7,
            line=dict(width=1, color='white')
        )
    ))
    
    # Add trendline if requested
    if show_trendline:
        # Calculate linear regression
        
        
        # Convert year to numeric, handling datetime objects
        if pd.api.types.is_datetime64_any_dtype(freq_df['year']):
            # If datetime, extract the year
            x = freq_df['year'].dt.year.values.astype(float)
        else:
            # Otherwise convert to numeric
            x = pd.to_numeric(freq_df['year'], errors='coerce').values
        
        y = freq_df['relative_frequency'].values
        
        # Remove any NaN values
        valid_idx = ~(np.isnan(x) | np.isnan(y))
        x = x[valid_idx]
        y = y[valid_idx]
        
        if verbose:
            print(f"Valid data points for trendline: {len(x)}")
            print(f"Year range: {x.min():.0f} to {x.max():.0f}")
            print(f"Frequency range: {y.min():.2f} to {y.max():.2f}")
        
        if len(x) > 1:  # Need at least 2 points for a line
            # Fit line: y = mx + b
            m, b = np.polyfit(x, y, 1)
            
            if verbose:
                print(f"Trendline equation: y = {m:.6f}x + {b:.4f}")
                print(f"Slope interpretation: {'increasing' if m > 0 else 'decreasing' if m < 0 else 'flat'} trend")
            
            # Create trendline
            x_trend = np.array([x.min(), x.max()])
            y_trend = m * x_trend + b
            
            fig.add_trace(go.Scatter(
                x=x_trend,
                y=y_trend,
                mode='lines',
                name='Trend',
                line=dict(color='red', width=2, dash='dash'),
                hovertemplate='Trendline<br>Year: %{x}<br>%{y:.2f}<extra></extra>'
            ))
        else:
            if verbose:
                print("Warning: Not enough valid data points to draw trendline (need at least 2)")
    
    # Create a readable noun list for the title
    noun_list = list(noun_list)
    noun_list_str = ', '.join(noun_list[:5])
    if len(noun_list) > 5:
        noun_list_str += f', ... ({len(noun_list)} total)'
    
    # Update layout
    fig.update_layout(
        title=f'Relative Frequenz des semantischen Felds',
        xaxis_title='Jahr',
        yaxis_title='Relative Frequenz (pro 100 Tokens)',
        hovermode='closest',
        height=600,
        showlegend=show_trendline
    )
    
    return fig

In [None]:
# Create scatter plot
plot_noun_list_scatter(count_1_df, semantic_field_nouns)

In [None]:
# Create scatter plot
plot_noun_list_scatter(freq_2_df, semantic_field_nouns)

### Entwicklung der h√§ufigsten W√∂rter des semantisches Felds anzeigen
* mean > 1 

In [None]:
from scipy.signal import savgol_filter

def filter_df_by_mean_threshold(df, semantic_field_nouns, threshold=1):
    # Find which checked columns pass the threshold
    passing_cols = [col for col in semantic_field_nouns if df[col].mean() > threshold]
    
    # Keep passing columns plus all columns that weren't checked
    other_cols = [col for col in df.columns if col not in semantic_field_nouns]
    df_filtered = df[other_cols + passing_cols]
    return df_filtered


def plot_single_terms(df_filtered, semantic_field_nouns):
    # Calculate relative frequencies for each term
    terms = [col_name for col_name in df_filtered.columns if col_name in semantic_field_nouns]
    for term in terms:
        df_filtered[f'{term}_relative'] = (df_filtered[term] / df_filtered['total_count_tokens']) * 100
    
    # Melt the dataframe to long format
    plot_data = df_filtered.melt(
        id_vars=['year', 'title', 'lastname', 'total_count_tokens'],
        value_vars=[f'{term}_relative' for term in terms],
        var_name='Term',
        value_name='Relative_Frequency'
    )
    
    # Clean up term names
    plot_data['Term'] = plot_data['Term'].str.replace('_relative', '')
    
    fig = go.Figure()
    
    colors = ['steelblue', 'coral', 'seagreen', 'mediumpurple', 'goldenrod']
    term_colors = dict(zip(terms, colors))
    
    for term in terms:
        term_data = plot_data[plot_data['Term'] == term].sort_values('year')
        
        # Add scatter points
        fig.add_trace(go.Scatter(
            x=term_data['year'],
            y=term_data['Relative_Frequency'],
            mode='markers',
            name=term,
            text=term_data['title'],
            customdata=term_data['lastname'],
            hovertemplate='<b>%{text}</b> (%{customdata})<br>' +
                         'Year: %{x|%Y}<br>' +
                         f'{term} Frequency: ' + '%{y:.4f} per 100 tokens<br>' +
                         '<extra></extra>',
            marker=dict(size=6, color=term_colors[term], opacity=0.5),
            showlegend=True
        ))
        
        # Add smoothed trend line (if enough data points)
        if len(term_data) > 5:
            try:
                smoothed = savgol_filter(term_data['Relative_Frequency'], 
                                        window_length=min(11, len(term_data) if len(term_data) % 2 == 1 else len(term_data)-1), 
                                        polyorder=2)
                fig.add_trace(go.Scatter(
                    x=term_data['year'],
                    y=smoothed,
                    mode='lines',
                    name=f'{term} (trend)',
                    line=dict(color=term_colors[term], width=2),
                    showlegend=False,
                    hoverinfo='skip'
                ))
            except:
                pass
    
    fig.update_layout(
        title='Relative Frequenz des gefilterten semantischen Felds √ºber Zeit',
        xaxis_title='Jahr',
        yaxis_title='Frequenz pro 100 Tokens',
        height=600
    )
    
    fig.show()

In [None]:
filtered_1 = filter_df_by_mean_threshold(freq_1_df, semantic_field_nouns)
plot_single_terms(filtered_1, semantic_field_nouns)

In [None]:
filtered_2 = filter_df_by_mean_threshold(freq_2_df, semantic_field_nouns)
plot_single_terms(filtered_2, semantic_field_nouns)

## Schreiben der Ergebnisse 
Die Ergebnisse werden als Tabellen (`.csv`-Dateien) gespeichert, so kann die Erstellung der Abbildungen unbah√§ngig von diesem Notebook nachvollzogen werden und die werden Ergebnisse so nachnutzbar.

In [None]:
result_dir = Path("results/")
if not result_dir.exists():
    result_dir.mkdir()

result_path_1 = result_dir / "results-corpus-german_language_fiction_1820-1900_50-per-decade-I.csv"
result_path_2 = result_dir / "results-corpus-german_language_fiction_1820-1900_50-per-decade-II.csv"

freq_1_df.to_csv(result_path_1, index=False)
freq_2_df.to_csv(result_path_2, index=False)

## Diskussion der H√§ufigkeitsanalyse

Die Analyse der relativen H√§ufigkeiten zeigt, dass deutschsprachige literarische Texte des 19. Jahrhunderts **nicht** vermehrt √ºber Luft und Luft-verwandte Begriffe sprechen, sondern der Trend in beiden Subkorpora stagniert. Zwar gibt es Ausrei√üer wie z.B. *Das Dorf im Gebirge* (von Hofmannsthal) oder *Das Schattenspiel* von Flaischlen, die beide 

Es gibt mehrere Deutungsans√§tze dieses Ergebnisses: Zum einen kann es sein, dass deutschsprachige Literatur die durch die revolutionelle Revolution herbeigef√ºhrte Ver√§nderung der Luftqualit√§t tats√§chlich nicht reflektiert. Zum anderen ist es m√∂glich, dass unsere Operationalisierung zu kurz gegriffen ist, z.B. da abnehmende Luftqualit√§t subtiler angedeutet werden k√∂nnte oder die relative H√§ufigkeit keine gute Metrik f√ºr die Importanz der Thematik ist. 