In [18]:
"""
In diesem Notebook werden Visualisierungen erzeugt, die das Lehrveranstaltungs-Korpus beschreiben.
Grundsätzlich gibt es zwei Arten von Texten: Kurstitel und Kursbeschreibungen.

Die Visualisierungen zeigen: die Textlängen (in Kennziffern und Verteilungen),
und die Anzahl an Texten (insgesamt, pro Uni, pro Semester).

In der eingelesenen Tabelle steht jede Zeile für eine Lehrveranstaltung.

"""

'\nIn diesem Notebook werden Visualisierungen erzeugt, die das Lehrveranstaltungs-Korpus beschreiben.\nGrundsätzlich gibt es zwei Arten von Texten: Kurstitel und Kursbeschreibungen.\n\nDie Visualisierungen zeigen: die Textlängen (in Kennziffern und Verteilungen),\nund die Anzahl an Texten (insgesamt, pro Uni, pro Semester).\n\nIn der eingelesenen Tabelle steht jede Zeile für eine Lehrveranstaltung.\n\n'

In [19]:
import pandas as pd
import plotly.express as px
import numpy as np
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import glob
import re

# Lade  Daten

In [20]:
# data = pd.read_csv("Daten/LVs/LVs_with_gnd_2_0.csv", sep=";", encoding="utf-8", index_col=0)

In [21]:
from google.colab import drive
drive.mount('/content/drive')

data = pd.read_csv("/content/drive/MyDrive/2024.Kanonizität/resources/10_lehrveranstaltungen.csv", sep=";", encoding="utf-8", index_col=0)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [22]:
data.head()

Unnamed: 0,ID,Titel,Inhalt,Semester,Module,Art,Intervall_Start,Intervall_End,inhalt_count,titel_count,Universität,NER_Pers_Inhalt,NER_Pers_Titel,NER_Pers_Titel_lemm,NER_Pers_Inhalt_lemm,Land,NER_GNDs_Inhalt,NER_GNDs_Titel
0,wien0001,Einf.PS: Neuere dt. Literaturwissenschaft I,,wise00-01,,UE,2000-09,2001-03,0,1,wien,,,,,Österreich,,
1,wien0002,Seminar: Neuere deutsche Literatur,,wise00-01,,SE,2000-09,2001-03,0,1,wien,,,,,Österreich,,
2,wien0003,SE: Neuere dt. Literatur-Poetik u.Transgression,,wise00-01,,UE,2000-09,2001-03,0,1,wien,,,,,Österreich,,
3,wien0004,EPS: Neuere dt. Literaturwissenschaft II,,wise00-01,,UE,2000-09,2001-03,0,1,wien,,,,,Österreich,,
4,wien0005,Proseminar: Neuere deutsche Literaten,,wise00-01,,UE,2000-09,2001-03,0,1,wien,,,,,Österreich,,


# Textlängen

### Inhaltsbeschreibungen

In [23]:
#Token-Anzahl und durchschnittliche Tokenanzahl Beschreibungen
data_content_only = data[~data["Inhalt"].isna()]

# Berechne Textlängen
data_content_only["Beschreibungslänge"] = data_content_only["Inhalt"].apply(lambda x: len(x.split()))

print("Anzahl der Token insgesamt: ", data_content_only.Beschreibungslänge.sum())
print("Durchschnittliche Anzahl an Token pro Inhaltsbeschreibung: ", data_content_only.Beschreibungslänge.mean())


Anzahl der Token insgesamt:  868125
Durchschnittliche Anzahl an Token pro Inhaltsbeschreibung:  141.68842826832054




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [24]:
fig = px.histogram(data_content_only, x="Beschreibungslänge", title="Länge der Inhaltsbeschreibungen in Token", \
                   color_discrete_sequence=["turquoise"],\
                  width=1000)
fig['layout']["yaxis1"]['title']= "Tokenanzahl"
fig.show()

# fig.write_image("figures/Histogramm_Beschreibungslängen.png",  scale=2)

In [25]:
fig = px.box(data_content_only, y="Beschreibungslänge", title="Länge der Titel in Token", color_discrete_sequence=["turquoise"],\
                  width=1000)

fig.show()

## Titel

In [26]:
# Token-Anzahl und durchschnittliche Tokenanzahl Titel
token_numbers = []
for titel in data.Titel:
    token_numbers.append(len(titel.split()))

print("Anzahl der Token insgesamt: ", sum(token_numbers))
print("Durchschnittliche Anzahl an Token pro Inhaltsbeschreibung: ", sum(token_numbers)/len(token_numbers))
data["Titellänge"] = token_numbers

Anzahl der Token insgesamt:  54281
Durchschnittliche Anzahl an Token pro Inhaltsbeschreibung:  7.555818485523385


In [27]:

fig = px.histogram(data, x="Titellänge", title="Länge der Titel in Token", color_discrete_sequence=["purple"],\
                  width=1000)
fig['layout']["yaxis1"]['title']= "Tokenanzahl"
fig.show()
# fig.write_image("figures/Histogramm_Titellängen.png",  scale=2)

In [28]:
fig = px.box(data, y="Titellänge", title="Länge der Titel in Token", color_discrete_sequence=["purple"],\
                  width=1000)

fig.show()

In [29]:
# Wie sehen besonders lange Kurs-Titel aus?
for _,row in data.iterrows():
    Titellänge = row["Titellänge"]
    if Titellänge > 30:
        print(row["Titel"], "\n")

Antike und europäische Literatur I (B_Ge C3), Literaturgeschichte und Gattungspoetik I + II / Medium Literatur II:(B_Ge C2+C4)(LAGS-DE-VM2): Mit tausend Gesichtern die Tiefe sehen – Helden im Wandel der Kulturen und Zeiten 

„Die Stadt ohne Eigenschaften“: Orte und Nicht-Orte in Literatur, Film & bildender Kunst (19. bis 21. Jahrhundert) LG3; LG 4
„The city without qualities“: places and non-places in literature, film and visual arts 

„Denket, daß der Friede nährt, / denket, daß der Krieg verzehrt“: Die Darstellung von Krieg und Frieden in der deutschen Barockliteratur
„Denket, daß der Friede nährt, / denket, daß der Krieg verzehrt“:War and peace in the German literature of the 17th century 

Vertiefung Literaturwissenschaft: Die Phantasie der Literatur. Kreativität und Imagination in Erzähltexten des 18. – 21. Jahrhunderts
The Fantasy of Literature. Creativity and Imagination in Narrative Texts from the 18th to the 21st Century 

Vertiefung Literaturwissenschaft: Die Phantasie der Li

# Anzahl

## Anzahl von Inhaltsbeschreibungen und Titeln

In [30]:

print("Menge von Inhaltsbeschreibungen: ", len(data_content_only))
print("Menge von Titeln: ", len(data))


Menge von Inhaltsbeschreibungen:  6127
Menge von Titeln:  7184


## Anzahl an Beschreibungen und Titeln pro Uni

In [31]:
# Group by university and sum the counts
uni_grouped = data.groupby("Universität")[["titel_count", "inhalt_count"]].sum().reset_index()

uni_grouped.head(10)

Unnamed: 0,Universität,titel_count,inhalt_count
0,basel,635,623
1,chemnitz,131,131
2,erfurt,321,321
3,graz,1400,1400
4,halle,1566,1291
5,mainz,630,540
6,marburg,475,436
7,stuttgart,739,681
8,wien,1287,704


In [32]:
fig = px.bar(uni_grouped.sort_values(by="titel_count", ascending=False),
             x="Universität", y=["titel_count", "inhalt_count"], barmode="group",
            color_discrete_map={"titel_count": "purple", "inhalt_count":"turquoise"})
fig.show()

## Anzahl an Beschreibungen und Titeln pro Uni und Semester

In [33]:
# Aggregiere df

alle_semester = ['wise00-01', 'sose01', 'wise01-02', 'sose02', 'wise02-03', 'sose03', \
                 'wise03-04', 'sose04', 'wise04-05', 'sose05', 'wise05-06', 'sose06', \
                 'wise06-07', 'sose07', 'wise07-08', 'sose08', 'wise08-09', 'sose09',\
                 'wise09-10', 'sose10', 'wise10-11', 'sose11', 'wise11-12', 'sose12', \
                 'wise12-13', 'sose13', 'wise13-14', 'sose14', 'wise14-15', 'sose15', \
                 'wise15-16', 'sose16', 'wise16-17', 'sose17', 'wise17-18', 'sose18',\
                 'wise18-19', 'sose19', 'wise19-20', 'sose20', 'wise20-21', 'sose21', \
                 'wise21-22', 'sose22', 'wise22-23', 'sose23', 'wise23-24']

df = pd.DataFrame()
df["Semester"] = alle_semester

unis = ["wien", "graz", "basel", "chemnitz", "erfurt", "halle", "marburg", "mainz", "stuttgart"]

for uni in unis:
    uni_df = data[data["Universität"] == uni]

    # Group by Semester und summiere counts
    unigrouped = uni_df.groupby("Semester")[["titel_count", "inhalt_count"]].sum()

    # Use reindex to ensure all semesters are present, filling missing with 0
    unigrouped = unigrouped.reindex(alle_semester, fill_value=0)

    # Add to the final dataframe
    df[f"Titel_{uni}"] = unigrouped["titel_count"].values
    df[f"Inhalt_{uni}"] = unigrouped["inhalt_count"].values

In [34]:
columns = [col for col in df.columns if "Semester" not in col]
fig = make_subplots(rows=len(columns), cols=1, shared_xaxes=True, vertical_spacing=0.02, shared_yaxes='all')

rowcounter = 1

for col in columns:
    if rowcounter > 2:
        show_legend = False
    else:
        show_legend = True

    stadt = col.split("_")[1]
    content = col.split("_")[0]

    if content == "Titel":
        name = "Number of course titles"
        color="purple"
    else:
        name = "Number of course descriptions"
        color="turquoise"


    fig.add_bar(
        x=df.Semester.to_list(),
        y=df[col].to_list(),
        marker=dict(color=color),
        #mode="markers",
        name=name,
        row=rowcounter, col=1,\
        showlegend= show_legend)

    axis = "yaxis" + str(rowcounter)
    fig['layout'][axis]['title']= stadt
    rowcounter+=1

fig.update_layout(height=1200)

fig.update_layout(
    title="Data: scraped courses per university",
    font=dict(
        size=7,
    ), width=800)

# fig.write_image("figures/Übersicht_Quantitäten_pro_Uni.png",  scale=2)
fig.show()