In [2]:
import numpy as np
import seaborn as sb
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
df = pd.read_excel("pfad.xlsx", 
    sheet_name="SheetName")

In [None]:
df['Vollname'] = df['Vorname'] + ' ' + df['Nachname']

raum_counts = df["Ressource"].value_counts()  # Anzahl je Raum
raum_percent = raum_counts / raum_counts.sum() * 100  # Prozentuale Nutzung
vollname_counts = df['Vollname'].value_counts() # Anzahl je Name

# Ausgabe der Häufigkeiten und Prozentwerte
print("\nHäufigkeiten der Räume:\n", raum_counts)
print("\nProzentuale Nutzung der Räume:\n", raum_percent)

In [None]:
# Balkendiagramm
plt.figure(figsize=(12, 8))
raum_counts.plot(kind="bar", color=["skyblue", "orange", "lightgreen", "pink", "red", "blue", "yellow", "brown"])
plt.title("Häufigkeit der Raumnutzung", fontsize=12)
plt.xlabel("Raumtyp", fontsize=12)
plt.ylabel("Anzahl der Buchungen", fontsize=10)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# Kuchendiagramm
plt.figure(figsize=(10, 10))
raum_percent.plot(kind="pie", autopct="%.1f%%", startangle=90, colors=["skyblue", "orange", "lightgreen", "pink", "red", "blue", "yellow", "brown"])
plt.title("Prozentuale Raumnutzung", fontsize=1)
plt.ylabel("")  # Entfernt die y-Achsen-Beschriftung
plt.tight_layout()
plt.show()

In [None]:
# Dauer zwischen Buchung und Veranstaltung

# Umwandlung Datetime-Objekte
df['Erstellt am'] = pd.to_datetime(df['Erstellt am'])
df['Start'] = pd.to_datetime(df['Start'])

# Berechnung der Differenz zwischen Start und Erstellt am
df['Differenz'] = (df['Start'] - df['Erstellt am']).dt.days

# Die Differenz als Liste
differenz_liste = df['Differenz'].tolist()

# Ausgabe der Liste
print("\nListe der Differenzen in Tagen:", differenz_liste)

In [None]:
intervalle = pd.cut(differenz_liste, bins=[0, 1, 2, 3, 4, 5, 6, 7, 13, 30, float('inf')], 
                    labels=["1", "2", "3", "4", "5", "6", "7", "8-13", "14-30", "30+"], right=True)

# Zähle die Häufigkeit der Intervalle
interval_counts = intervalle.value_counts().sort_index()

# Ausgabe der Häufigkeit der Intervalle
print("Dauer zwischen Buchung und Veranstaltung in Tagen:")
print(interval_counts)

In [None]:
# Definiere die Intervalle
intervalle = pd.cut(differenz_liste, bins=[0, 1, 2, 3, 4, 5, 6, 7, 13, 30, float('inf')], 
                    labels=["1", "2", "3", "4", "5", "6", "7", "8-13", "14-30", "30+"], right=True)


# Zähle die Häufigkeit der Intervalle
interval_counts = intervalle.value_counts().sort_index()

# Balkendiagramm erstellen
plt.figure(figsize=(10, 6))
interval_counts.plot(kind="bar", color="skyblue")
plt.title("Dauer zwischen Buchung und Veranstaltung in Tagen", fontsize=12)
plt.xlabel("Tagesintervall", fontsize=12)
plt.ylabel("Anzahl der Buchungen", fontsize=10)
plt.xticks(rotation=45)  # Drehen der X-Achsen-Beschriftungen
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# Leere Listen für jeden Raumtyp
ausstellungsraum = []
veranstaltungsraum = []
beratungsraum = []
og_beratungsraum = []
arbeitsplätze1 = []
arbeitsplätze2 = []
arbeitsplätze3 = []
arbeitsplätze4 = []

# Durschlauf durch die Räume-Spalte im DataFrame
for index, raum in df['Ressource'].items():
    if raum == 'Ausstellungsraum':
        ausstellungsraum.append(df.loc[index])
    elif raum == 'Veranstaltungsraum':
        veranstaltungsraum.append(df.loc[index])
    elif raum == 'Beratungsraum':
        beratungsraum.append(df.loc[index])
    elif raum == 'Arbeitsplätze (Arbeitsplatz 1)':
        arbeitsplätze1.append(df.loc[index])
    elif raum == 'Arbeitsplätze (Arbeitsplatz 2)':
        arbeitsplätze2.append(df.loc[index])
    elif raum == 'Arbeitsplätze (Arbeitsplatz 3)':
        arbeitsplätze3.append(df.loc[index])
    elif raum == 'Arbeitsplätze (Arbeitsplatz 4)':
        arbeitsplätze4.append(df.loc[index])
    elif raum == '5.OG / SCLL - Beratungsraum (hinterer Raum)':
        og_beratungsraum.append(df.loc[index])

# Ergebnis ausgeben
print("\nAusstellungsraum:\n", ausstellungsraum)

In [None]:
# Konvertiere die Start- und Endzeit in datetime
df["start"] = pd.to_datetime(df["Start"])
df["ende"] = pd.to_datetime(df["Ende"])

# Extrahiere die genauen Start- und Endzeiten (im Format "HH:MM")
df["start_zeit"] = df["start"].dt.strftime('%H:%M')
df["ende_zeit"] = df["ende"].dt.strftime('%H:%M')

# Definiere die Intervalle für die Start- und Endzeiten
start_intervall = pd.cut(df["start"].dt.hour + df["start"].dt.minute / 60,
                         bins=[8, 12, 17, 24], 
                         labels=["8-11:59", "12-16:59", "17+"], 
                         right=False)

ende_intervall = pd.cut(df["ende"].dt.hour + df["ende"].dt.minute / 60,
                        bins=[8, 12, 17, 24], 
                        labels=["8-11:59", "12-16:59", "17+"], 
                        right=False)

# Zähle die Häufigkeit der Start- und Endzeiten für die Intervalle
start_zeit_counts = start_intervall.value_counts().sort_index()
ende_zeit_counts = ende_intervall.value_counts().sort_index()

# Ausgabe der Häufigkeiten der Startzeiten und Endzeiten
print("\nHäufigkeit der Startzeiten pro Intervall:")
print(start_zeit_counts)

print("\nHäufigkeit der Endzeiten pro Intervall:")
print(ende_zeit_counts)

# Balkendiagramm für die Startzeiten
plt.figure(figsize=(10, 6))
start_zeit_counts.plot(kind="bar", color="skyblue")
plt.title("Häufigkeit der Startzeiten alle Räume", fontsize=14)
plt.xlabel("Uhrzeit-Intervall", fontsize=12)
plt.ylabel("Anzahl der Buchungen", fontsize=10)
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

# Balkendiagramm für die Endzeiten
plt.figure(figsize=(10, 6))
ende_zeit_counts.plot(kind="bar", color="lightgreen")
plt.title("Häufigkeit der Endzeiten alle Räume", fontsize=14)
plt.xlabel("Uhrzeit-Intervall", fontsize=12)
plt.ylabel("Anzahl der Buchungen", fontsize=10)
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# Konvertiere die Start- und Endzeit in datetime
df["start"] = pd.to_datetime(df["Start"])
df["ende"] = pd.to_datetime(df["Ende"])

# Extrahiere die genauen Start- und Endzeiten (im Format "HH:MM")
df["start_zeit"] = df["start"].dt.strftime('%H:%M')
df["ende_zeit"] = df["ende"].dt.strftime('%H:%M')

# Definiere die Intervalle für die Start- und Endzeiten
def get_time_interval(df):
    start_intervall = pd.cut(df["start"].dt.hour + df["start"].dt.minute / 60,
                             bins=[8, 12, 17, 24], 
                             labels=["8-11:59", "12-16:59", "17+"], 
                             right=False)

    ende_intervall = pd.cut(df["ende"].dt.hour + df["ende"].dt.minute / 60,
                            bins=[8, 12, 17, 24], 
                            labels=["8-11:59", "12-16:59", "17+"], 
                            right=False)

    return start_intervall, ende_intervall

# Gruppiere nach 'Ressource' und wende die Funktion auf jede Gruppe an
for raum, raum_df in df.groupby('Ressource'):
    # Definiere Start- und Endzeit-Intervalle für jeden Raum
    start_zeit_intervall, ende_zeit_intervall = get_time_interval(raum_df)

    # Zähle die Häufigkeit der Start- und Endzeiten für die Intervalle
    start_zeit_counts = start_zeit_intervall.value_counts().sort_index()
    ende_zeit_counts = ende_zeit_intervall.value_counts().sort_index()

    # Ausgabe der Häufigkeiten der Startzeiten und Endzeiten für den aktuellen Raum
    print(f"\nHäufigkeit der Startzeiten im Raum {raum}:")
    print(start_zeit_counts)

    print(f"\nHäufigkeit der Endzeiten im Raum {raum}:")
    print(ende_zeit_counts)

    # Balkendiagramm für die Startzeiten
    plt.figure(figsize=(10, 6))
    start_zeit_counts.plot(kind="bar", color="skyblue")
    plt.title(f"Häufigkeit der Startzeiten im Raum {raum}", fontsize=14)
    plt.xlabel("Uhrzeit-Intervall", fontsize=12)
    plt.ylabel("Anzahl der Buchungen", fontsize=10)
    plt.xticks(rotation=45)
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    plt.tight_layout()
    plt.show()

    # Balkendiagramm für die Endzeiten
    plt.figure(figsize=(10, 6))
    ende_zeit_counts.plot(kind="bar", color="lightgreen")
    plt.title(f"Häufigkeit der Endzeiten im {raum}", fontsize=14)
    plt.xlabel("Uhrzeit-Intervall", fontsize=12)
    plt.ylabel("Anzahl der Buchungen", fontsize=10)
    plt.xticks(rotation=45)
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    plt.tight_layout()
    plt.show()

In [None]:
# Konvertiere die Start- und Endzeit in datetime
df["start"] = pd.to_datetime(df["Start"])
df["ende"] = pd.to_datetime(df["Ende"])

# Berechne die Dauer der Veranstaltung in Stunden
df["dauer_in_stunden"] = ((df["ende"] - df["start"]).dt.total_seconds()) / 3600

# Wenn die Veranstaltung mehr als 8 Stunden dauert, wird sie in 8-Stunden-Tagen gezählt
df["tage_in_stunden"] = df["dauer_in_stunden"] / 8

# Runde auf die nächste volle Stunde für die Dauer der Veranstaltung
df["dauer_in_stunden"] = df["dauer_in_stunden"].apply(lambda x: int(x))

# Definiere die Intervalle: 1, 2, 3, 4, 5, 6, 7, 8, 9, 9+
def kategorisiere_dauer(dauer):
    if dauer == 1:
        return "1"
    elif dauer == 2:
        return "2"
    elif dauer == 3:
        return "3"
    elif dauer == 4:
        return "4"
    elif dauer == 5:
        return "5"
    elif dauer == 6:
        return "6"
    elif dauer == 7:
        return "7"
    elif dauer == 8:
        return "8"
    elif dauer == 9:
        return "9"
    elif dauer == 10:
        return "10"
    else:
        return "10+"  # Für alle über 10 Stunden

# Wende die Kategorisierung auf die Dauer an
df["dauer_intervall"] = df["dauer_in_stunden"].apply(kategorisiere_dauer)

# Setze die Kategorien in die gewünschte Reihenfolge
kategorien = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "10+"]
df["dauer_intervall"] = pd.Categorical(df["dauer_intervall"], categories=kategorien, ordered=True)

# Gruppiere nach 'Ressource' und zähle die Häufigkeit der Dauer-Intervalle
for raum, raum_df in df.groupby('Ressource'):
    dauer_counts = raum_df["dauer_intervall"].value_counts().sort_index()

    # Ausgabe der Häufigkeit der Dauer für den aktuellen Raum
    print(f"\nHäufigkeit der Dauer der Veranstaltungen im {raum}:")
    print(dauer_counts)

    # Balkendiagramm für die Dauer der Veranstaltungen im Raum
    plt.figure(figsize=(10, 6))
    dauer_counts.plot(kind="bar", color="skyblue")
    plt.title(f"Häufigkeit der Dauer der Veranstaltungen im {raum}", fontsize=14)
    plt.xlabel("Dauer in Stunden", fontsize=12)
    plt.ylabel("Anzahl der Veranstaltungen", fontsize=10)
    plt.xticks(rotation=45)
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    plt.tight_layout()
    plt.show()

In [None]:
# Gruppiere nach Dauer-Intervall für alle Räume zusammen
gesamt_dauer_counts = df["dauer_intervall"].value_counts().sort_index()

# Ausgabe der Häufigkeit der Dauer für alle Räume zusammen
print("\nHäufigkeit der Dauer der Veranstaltungen für alle Räume:")
print(gesamt_dauer_counts)

# Balkendiagramm für die Dauer der Veranstaltungen für alle Räume
plt.figure(figsize=(10, 6))
gesamt_dauer_counts.plot(kind="bar", color="skyblue")
plt.title("Häufigkeit der Dauer der Veranstaltungen für alle Räume", fontsize=14)
plt.xlabel("Dauer in Stunden", fontsize=12)
plt.ylabel("Anzahl der Veranstaltungen", fontsize=10)
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# Konvertiere die Werte in der Spalte "Unternehmen" zu Strings, ersetze NaN mit einem leeren String
df["Unternehmen"] = df["Unternehmen"].fillna("").astype(str)

# Definiere die Funktion zur Kategorisierung
def kategorisiere_bucher(name):
    name = name.strip().lower()  # Entferne Leerzeichen und konvertiere zu Kleinbuchstaben
    if name == "":  # Leere Einträge
        return "Unbekannt"
    elif "smart city lab" in name:  # Exakte Übereinstimmung für "Smart City Lab"
        return "Smart City Lab"
    elif "rds" in name:  # Exakte Übereinstimmung für "RDS"
        return "RDS"
    elif "stadt" in name or "amt" in name:  # Begriffe für "Stadtverwaltung"
        return "Stadtverwaltung"
    else:  # Alles andere
        return "Andere"

# Wende die Funktion auf die Spalte "Unternehmen" an
df["Unternehmen_kategorie"] = df["Unternehmen"].apply(kategorisiere_bucher)

# Gruppiere nach Ressource und Kategorie
for raum, raum_df in df.groupby("Ressource"):
    # Zähle die Häufigkeiten der Kategorien
    kategorie_counts = raum_df["Unternehmen_kategorie"].value_counts()

    # Debugging: Überprüfe die Einträge im aktuellen Raum
    print(f"\nDEBUG: Unternehmen im Raum {raum}:")
    print(raum_df[["Unternehmen", "Unternehmen_kategorie"]])

    # Ausgabe der Kategorien für den aktuellen Raum
    print(f"\nHäufigkeit der Buchungen im Raum {raum}:")
    print(kategorie_counts)

    # Balkendiagramm für die Kategorien im Raum
    plt.figure(figsize=(8, 6))
    kategorie_counts.plot(kind="bar", color=["skyblue", "orange", "lightgreen", "gray", "red"])
    plt.title(f"Häufigkeit der Unternehmen im Raum {raum}", fontsize=14)
    plt.xlabel("Kategorie", fontsize=12)
    plt.ylabel("Anzahl der Buchungen", fontsize=10)
    plt.xticks(rotation=45)
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    plt.tight_layout()
    plt.show()